Vous êtes sur la page 1sur 100

201

9
éd

2e
0 0 i ti o n
0 0
0 8
0 6 9 0
5 3 1
4 3 5
0 4 0
2 000010011101100101 3
1 011 011
011 001 5
8
0000 00
0

0
0

1 011
00

0
6

10 01

0
00
7

00

0
0

11

10

0
5

01

0
11
6
01

10
10

10

0
1

10

0
0

001
0
1
101

101
0111

0
0

111

0
0

0
0
01110110011

S   !
0
0
0

E N T I ST
SCI
0
0
0

D ATA açonne nt les transitio


ns vers demai
n

iers qui f
Les mét

DATA
Sommaire Fiches Métiers
L'ère numérique guidée par la donnée 2 Data & marketing 8
L'enjeu des données de santé 4 Data analyst 20
Objectif Data Driven 2020 5 Data manager 21
Explorer les données de transport 6 Ingénieur big data 28
Des métiers en évolution 10 Expert Data visualisation 31
La formation inséparable de la recherche 13 Data Scientist 34
La data peut-elle tout résoudre ? 22 Chief Data Officer 44
S’éduquer à la donnée 23 Head of Data 46
Maîtriser les algorithmes 24 Chef de projet data  47
Boîte à outils d'algos 26 Architecte Big Data 48
Quantique : vers l’hyper calcul ? 29 Chief Technology Officer 49
Rendre les données visibles 30 Expert sécurité 52
De man of science à scientist 32 Data protection officer 53
L’hybridation des compétences 33 Machine Learning Engineer 64
Des data scientists au quotidien 35 Ingénieur IA 65
Déployer une charte data 36 Machine learning specialist 66
Protéger les données personnelles 37 Chercheur en data science 67
Data Scientist ou Data Engineer ? 39 Data entrepreneur 76
Les banques & assurances bougent 40 Consultant Data & Analytics 78
Les missions des CDO 45 Data journalist 82
Des données sous haute protection 50
Assurer à l’ère des big data 51
Libérer l’énergie des données 54
La ville, terrain de jeux de données 56
De l’open data à l’open innovation 58
Quelles IA demain ? 59
Vers la transition cognitive 60
L’IA en France : les enjeux santé et emploi 61
Intelligence artificielle : nouvelles formations 62
La Recherche en Data Science 68
Une thèse en machine learning
Les nouveaux paradigmes scientifiques
72
74 Fiches pratiques
Des start-up de la donnée 77
Des données et des humains 79 Paroles de data scientists 88
Piloter un datalab 80 Faire son CV de data scientist 90
La cybersécurité étend ses ailes 81 Se réorienter vers la donnée 91
Un journalisme qui redonne du sens  83 Grand groupe ou start-up ? 92
Naviguer en données complexes 84 Se former en continu 93
Faire voler les data 85
Le quotidien des data scientists 94
Les compétences des data scientists 96
Avant-propos
Chère lectrice, cher lecteur

Je suis heureux que vous teniez ce guide entre vos mains,


heureux à double titre. Tout d’abord, car il s’agit de la
seconde édition, enrichie et mise à jour, de cet ouvrage. Cela
prouve l’importance toujours plus grande de la science des
données dans notre société et le besoin croissant de former des professionnels
capables de saisir à bras-le-corps nombre de nouveaux défis.

Je suis également heureux que vous lisiez ces phrases, que votre intérêt, voire
votre curiosité, vous ait incité.e à ouvrir ce guide. De toutes les découvertes
scientifiques et technologies issues des laboratoires de recherche, rares
sont celles qui irriguent autant notre quotidien. Connaître l’existence de cette
discipline et de ses enjeux est presque devenu une nécessité pour tout citoyen
désireux de comprendre la marche du monde moderne.

Il est difficile de compter le nombre de services, d’outils et de pratiques actuelles


ou d’un futur proche qui vont reposer sur un traitement massif d’informations,
la mise en œuvre d’algorithmes d’apprentissage statistique ou de dispositifs
apprenants en interaction constante avec leur environnement. Sans doute 1
serait-il plus aisé d’identifier ceux qui ne seront pas affectés !

Si l’intelligence artificielle suscite autant d’espoirs chez les uns que de craintes
chez les autres, la ligne de conduite de Télécom ParisTech sur ce sujet est
claire et repose sur deux principes. Le premier est que, parce que l’avènement
de l’IA est incontournable, il est d’importance stratégique que la France forme
ses propres docteurs et ingénieurs à même de concevoir des dispositifs
« intelligents » et qu’elle possède ses propres start-up et infrastructures
souveraines.

L’autre principe est celui de l’impératif de la présence permanente, dans


nos enseignements comme au sein de notre recherche, du regard porté par
les sciences humaines sur les impacts socio-économiques des nouvelles
technologies. Science et conscience ne doivent pas cesser de se répondre et
j’espère que cette lecture saura y encourager plus d’un et plus d’une !

Yves Poilane
Directeur de Télécom ParisTech
L'ère numérique guidée par la donnée
S’il existe un domaine qui a provoqué,
puis accéléré, la transition numérique en Nature des données
cours, ce n’est pas tant le déploiement Il est habituel de présenter les données
des réseaux ou la convergence des mé- massives à travers quelques-unes de
dias au début des années 2000, mais bien leurs caractéristiques fondamentales,
l’abondance de la donnée, produite par qui commencent toutes par la lettre V.
notre utilisation effrénée des réseaux et Les trois principales et immédiates sont
des objets connectés. Depuis 2012, année leur volume, la vitesse à laquelle elles sont
où le « big data » a été choisi comme terme produites, captées, consommées, et leur
tendance dans le monde du numérique, la variété, les données à traiter étant souvent
situation a fortement évolué. L’utilisation non structurées, composées de textes,
de telles données massives n’était cepen- d'images, de suites de chiffres… Leur
dant pas inconnue auparavant des direc- variabilité caractérise leur propension
tions des systèmes d’information, et c'est à changer de format ou de structure au
la soudaine production de nouvelles don- cours du temps, par l'ajout de nouveaux
nées de toute nature, la mise à disposition champs ou par l’intégration de données
en open data de nombreuses sources de similaires améliorant leur diversité.
données externes et la facilité avec les-
2 quelles il était possible de les manipuler, Les données en soi sont des faits bruts,
les assembler, et effectuer des calculs et pour créer de l'information, puis de la
avec, qui a provoqué la création de ser- connaissance, elles doivent être interpré-
vices innovants. La transition numérique tées. L'intérêt des données réside alors
de la société a pu commencer sérieuse- dans leur valeur intrinsèque qui émerge
ment, guidée par les sciences de la don- des traitements qu'on leur fait subir, des
née. Le terme data-driven economy faisait simples statistiques à l'apprentissage
son apparition. machine (machine learning) plus évolué.

De l’acquisition à l’utilisation, les données subissent de nombreux traitements

classer
acquérir affiner
nettoyer indexer
extraire géocoder
transformer sérialiser
intégrer contextualiser
convertir anonymiser
aggréger décrire
protéger

traiter
rafraîchir présenter
interpréter
stocker archiver visualiser
apprendre
effacer partager
analyser
Déverrouiller la valeur tapie au cœur des le renouvellement de nos façons d’agir et
données ne sert cependant pas à grand- d’interagir. Moteur de la transition numé-
chose si leur mise en contexte n'est pas rique et des autres transitions en cours,
respectée et si ce qu'elles ont à dire porteuse d’enjeux juridiques et sociétaux,
n'est pas bien mis en lumière. Valoriser, non bridée par la technologie pour l’ins-
rendre visibles et permettre de visualiser tant, la donnée est à la fois une affaire de
les données sont une même démarche technicité et d’humains, et les data scien-
qui consiste à rendre les données com- tists en sont les artisans et le liant.
préhensibles, interprétables, utiles, par-
tageables, vivantes. Reste une condition : Une stratégie de la donnée, en
que ces données et leurs conséquences France et en Europe
soient conformes à la vérité et aux faits. Ce
souci de véracité des données est un mar- Lancé en France en 2013, le Plan Big Data
queur fort à préserver. Ajoutons que les a affirmé la donnée comme une des prio-
données ne sont jamais neutres : de nou- rités nationales, avec l’objectif de devenir
velles combinaisons de données peuvent une référence mondiale, et l’ambition de
créer de nouvelles connaissances aux créer 10 000 emplois directs d’ici 2019,
conséquences difficilement prévisibles. notamment via la formation des data
scientists. En 2015 le programme Indus-
Culture de la donnée trie du futur a défini trois priorités liées
Les data scientists – un terme large qui se au big data : l’économie des données, les
décline en une multitude de métiers, évo- objets intelligents et la confiance numé- 3
lutifs – sont les femmes et les hommes rique. Les données sont également l’une
qui naviguent dans les données au quo- des grandes orientations de la stratégie
tidien. Le volume de ces dernières n’est de recherche France-Europe 2020. Issue
pas toujours leur caractéristique majeure. du Plan d’investissements d’avenir, la pre-
Les open data, ces informations publiques mière plate-forme big data sponsorisée
librement accessibles et réutilisables, dé- par l’État français, TeraLab, dotant l’in-
signant également des données d’acteurs novation, la recherche et l’enseignement
privés qu’ils libèrent dans les mêmes d’importantes capacités de traitement big
conditions, sont un type de données vec- data, a reçu le label « Silver i-Spaces » par
teur d’innovations et d’enrichissement des la Big Data Value Association fin 2016, label
données que chaque acteur produit. Le détenu par seulement trois plate-formes
caractère personnel de certaines données en Europe (voir page ).
est une qualité qui nécessite une attention
particulière et une éthique de tous les ins- Dans le monde entier, tous les domaines
tants. La place déterminante qu’elles ont d’activité sont touchés par l’économie de
prise dans nos sociétés rend le dévelop- la donnée et l’avènement des intelligences
pement de la culture des données –com- artificielles, chacun à des stades diffé-
prendre leur rôle et se donner les moyens rents. Des femmes et des hommes data
d’agir avec  – essentiel à double titre  : scientists racontent à présent leur métier
l’examen critique de leur place au cœur passionnant, dans les secteurs historiques
de nos échanges et de nos décisions, et que sont la santé et les transports.
L'enjeu des données de santé
Quand en 2008 Google révèle qu'il semble Les données de santé ne sont pas des
capable de prédire les lieux d'épidémie de données comme les autres. Elles font
la grippe deux semaines avant les centres l'objet d'une définition officielle dans le
nationaux de suivi des maladies, à par- Règlement européen 2016/679  : il s'agit
tir de corrélations via les requêtes faites d'une donnée médicale ou relative aux dé-
sur son moteur de recherche, une prise terminants généraux de la santé, se rap-
de conscience sur le tour que pourrait portant à l’état de santé d’une personne,
prendre les flux massifs de données ap- qui révèle des informations sur sa santé
pliquées à la santé s'opère. En exploitant physique ou mentale passée, présente ou
des jeux de données nouveaux, provenant future, y compris des informations rela-
des comportements de la multitude, il tives à son enregistrement pour la pres-
semble soudain envisageable de prédire tation de services de santé, ou obtenues
le futur, dans une certaine mesure. Avec lors de tests ou d'examens, et d'autres
les objets connectés, c'est également types d'informations de santé quelle qu'en
l'accès à des données relatives au bien- soit la source. Ces questions règlemen-
être (sommeil, alimentation, gestion des taires et le grand nombre d'organismes
moments de sport) qui devient possible. de validation ou de contrôle existant, les
Enfin, les progrès dans l'analyse d'images questions de sécurité et de protection de
4 et d'autres signaux d'origine médicale, et ces données, les questions d'éthique as-
le recours à des systèmes d'intelligence sociées, font de la santé un secteur où la
artificielle, permettent de mieux détecter variété d'acteurs intervenants doit gérer
certaines pathologies. les données avec soin.

Pionnière de l'utilisation de données de


santé, Florence Nigthindale dirige une équipe
d'infirmières pendant la guerre de Crimée
et constate dans les hôpitaux des conditions
horribles de mauvaise hygiène, de manque de
ressources et de désorganisation du personnel
et des dossiers médicaux, notamment lors
des transferts de malades. Elle recueille des
données pour les analyser, et à son départ en 1856, les conditions dans les hôpitaux
se seront considérablement améliorées, avec des taux de mortalité tombant de 42%
à 2%. L'analyse de ces données avait démontré les vraies causes de la mortalité – les
conditions de vie insalubres et non pas le manque de nourriture. Elles montraient
également que les hôpitaux civils étaient concernés pour les mêmes raisons. Pour
convaincre la reine Victoria et le parlement d'enclencher des réformes, Florence
Nigthindale crée une représentation graphique nouvelle, un diagramme polaire dit
coxcomb, dont les multiples dimensions véhiculent et démontrent mieux les faits.
Objectif Data Driven 2020
Yoann Janvier
Lead Data Scientist
IPSEN


Yoann Janvier est Lead Data Scientist chez Ipsen (Euronext: IPN; ADR: IPSEY), groupe
pharmaceutique international de spécialité. Le département
auquel il est rattaché est dirigé par un vice-président big data &
analytics et est composé d’un directeur des données, d’un chef de
projet big data et d’un business analyst. Yoann quant à lui est en
charge du Data Lab avec une petite équipe de data scientists
externes. Il pilote et réalise des projets exploratoires avec
l’objectif de création de valeur à partir de la donnée. Les
méthodologies agile et test and learn sont appliquées tout
au long de la chaîne : collecte et exploration des données,
recherche de caractéristiques pour alimenter les algorithmes
d’apprentissage machine, data visualisations…

« Un mix entre Les données proviennent du système d’information, de la


R&D, du web, ou sont acquises en externe. Leur volumétrie 5
data scientist et reste faible mais de futurs projets sur les données cliniques
et génétiques, et des projets de maintenance prédictive
manager » avec des flux de données de capteurs, vont significativement
accroître les volumes. L’exploitation de ces données très
variées, structurées ou non (bases de données, articles scientifiques, tweets…) nécessite
une intelligence algorithmique importante. Enfin, l’un des objectifs poursuivis est de
révéler des informations cachées dans les données (segmentation marketing par
exemple) et de faire de la prédiction (par exemple sur l’épidémie de gastro-entérite).

En 2017 un projet big data d’industrialisation a été lancé avec pour objectif de passer
à l’échelle en terme de valeur apportée et de volume d’utilisateurs cibles. La nouvelle
plate-forme rendra plus robuste la collecte des données, les développements
exploratoires et l’exposition des données. Ce type de plate-forme aidera à mettre en
œuvre des projets plus complexes, en particulier avec le traitement de données en temps
réel. « Cette Data Factory est un guichet unique pour toutes les initiatives exploratoires et
pour manipuler des données quotidiennement. Les données y sont exposées et accessibles via
des API, internes et externes. Par analogie, notre Data Factory est une bibliothèque où chaque
nouveau service est un nouveau livre. » Ipsen évalue également d’autres technologies
innovantes tout au long du parcours de soins du patient : remontée de données d’essais
cliniques avec les objets connectés, gestion de la douleur ou programme de rééducation
par la réalité augmentée, avec des systèmes d’intelligence artificielle.
linkedin.com/in/yjanvier
@yoannjanvier Retrouvez Yoann Janvier page 
Explorer les données de transport
Avec les données de santé, les données Côté matériel, les véhicules autonomes et
de transport sont parmi les premières à les drones ouvrent de nouvelles perspec-
avoir été largement utilisées pour créer tives. Enfin, c’est de ce secteur qu’est né
des preuves de concept de services in- le terme « ubérisation ».
novants à l’ère numérique. À l’occasion
de nombreux hackathons, et en utilisant Le secteur du transport est un domaine
des ensembles de données de plus en où l’on commence à avoir suffisamment
plus ouvertes, les amoureux de la don- de recul, et s’il reste encore beaucoup
née de transport et de la donnée géogra- à explorer, de nombreux chantiers sont
phique ont imaginé des services d’aide à passés en phase industrielle, ce qui offre


la m
­ ulti-modalité, de suivi et de visualisa- un panorama assez large des projets de
tion de trajets, ou encore de covoiturage. data scientists.

Améliorer la qualité des produits « Mon travail chez PSA


Data scientist pour le véhicule connecté consistait à valoriser
et expert en analyse de données, Alain les données des véhi-
Abramatic est un ancien élève de Télécom cules connectés en dé-
6 ParisTech qui est entré chez PSA Peugeot veloppant de nouveaux
Citroën après dix années passées chez services à valeur ajou-
Schlumberger. Cet ingénieur, attiré par tée pour l’ensemble de nos
l’analyse de données dès sa formation clients, particuliers ou professionnels, et de
initiale, a été manager et expert dans nos partenaires. » Ceci passe par le croise-
plusieurs services du constructeur ment des informations et la mise en œuvre
automobile, avant que son parcours ne de techniques d’apprentissage machine.
l’amène à manipuler des données de Dans ce domaine, et à condition d’avoir
transport sur l’ensemble de la chaîne de les bons capteurs, l’internet des objets est
transformation de la data. Après presque nécessaire pour obtenir de nouvelles don-
30 ans passés au sein du groupe, il est nées. Il doit cependant apporter une réelle
aujourd’hui consultant indépendant. plus-value, et l’utilisation d’intelligences
artificielles est indispensable pour cela. Le
Les informations traitées chez PSA risque de rejet d’un nouvel usage est une
sont de nature très variée  : données boussole pour le data scientist.
structurées collectées dans les véhicules
(avec l’accord du client), bases de données Ce travail se fait dans le respect des exi-
internes (fabrication, garantie, diagnostic), gences réglementaires de chaque pays où
verbatims associés, données issues de les données sont collectées. La maîtrise
la relation clientèle… Un exemple parmi des volumes et la qualité, l’optimisation
d’autres : une étude sur la consommation des traitements, la pertinence des résul-
de carburant des véhicules. tats obtenus sont fondamentaux.
Accélérer la démarche
orientée données


www.linkedin.com/in/angeliquebidault

Angélique Bidault-Verliac
Directrice Datascience & Connaissance Client
OUI.sncf

Les projets autour des big data au sein du marketing chez


OUI.sncf (ex Voyages-sncf.com) ont débuté en 2013. Ils
@Bidaultverliac

concernaient à l’origine les données de navigation des


clients, qui provenaient du site web et de l’application
mobile. L'objectif était de les aider à trouver ce qu'ils
cherchaient et à revenir vers eux avec des suggestions
de destination. En quelques années, les data scientists
ont beaucoup appris, notamment sur le soin à apporter dans le
nettoyage préalable des données et le traitement
des cas particuliers, pour éviter que la chaîne
« Le marketing vit de données ne se rompe en production. « Ces

sa transformation constats ont incité les équipes à s'organiser


différement entre data scientists et unités métier,
7

grâce à la donnée » afin de rendre plus fluides leurs relations. » Depuis


les premiers prototypes de services en 2013,
l’accent est donc mis sur l'organisation et l'industrialisation. Les équipes
travaillent de telle manière qu’en cas d’absence d’un des leurs, chacun
connaissant le projet de l’autre peut continuer l’activité globale.

La période actuelle, très motivante, consiste à accélérer cette démarche data driven.
Le maître-mot est de démocratiser la donnée. Un programme est mis en place pour rendre
autonomes les personnes qui ont besoin de données de comportement clients anonymisés
dans l’entreprise. Le premier chantier consiste à former ces personnes aux agrégats
clients (segmentation RFM, flag clients acquis…) et le second, mené en parallèle, à mettre
à disposition d’un plus grand nombre toutes les analyses statistiques réalisées. « L’objectif
est de libérer les data scientists et les data miners, et placer tout ce qui relève du reporting
directement au sein des équipes opérationnelles. » Cela change le périmètre d’action des
commerciaux, accédant à présent dans leur quotidien à toutes les études data en interne et
qui, sensibilisés à l’importance des données, peuvent devenir sponsors de futurs produits.

Un autre enjeu important est celui de la veille technologique. « De nombreux outils
d’apprentissage machine sortent régulièrement. Les data scientists doivent s'emparer de ces
outils, et avec leur appui un membre de l’équipe spécialisé en innovation orchestre cette veille. »

Retrouvez Angélique Bidault-Verliac page 


Data & marketing
DATA & MARKETING

Grands consommateurs de données à des fins d’analyse et de


segmentations de plus en plus fines, les métiers du marketing ont
été dans les premiers à s’emparer des big data pour y chercher de nouvelles sources
de connaissance des clients. Les profils sachant allier la maîtrise de la donnée et
celle du marketing sont fortement recherchés par les annonceurs, les agences et
les équipes marketing au sein des entreprises. Leur rôle est de recueillir, analyser et
mettre en perspective les données issues des parcours des clients, tant sur le web et
les mobiles, qu’en offline et cross-canal. Ces digital analysts effectuent du reporting
et doivent être capables de chercher à comprendre les comportements des clients et
d’être force de propositions et de recommandations pour les évolutions des sites web
et des applications. Ils sont également aujourd’hui amenés à utiliser les données en
provenance ou à destination des agents conversationnels et chatbots.

b+100+2001006040
ech Busin
se t
ert i es
s
p
Ex

De
é

sign
Curiosit

spirit

8 1 Connaître pour anticiper


3
5
irit
Lea

sp
de

sh
er

k
ac
r

ip
Créativité H

Profil Formation généraliste commerciale

b+60+6002010080
Le parcours idéal commence en agence ou chez
un acteur du web à fort trafic, l’évolution vers des iz Math
taV s
responsabilités de plus en plus large se faisant Da
rapidement
Bd
ry
Sto

Compétences Outils : solutions logicielles


ils Viz

de suivi de trafic
C o d er

1
3
5
Qualités : parfaite connaissance des outils digitaux,
Out

des évolutions des usages et des pratiques des


consommateurs ; capacité d’interprétation, d’analyse
Bi

Da ch
L
g

stratégique et de synthèse ; sensibilité à l’ergonomie ta Ma


D e e pL
et à l’optimisation des sites et applications
Chez OUI.sncf, la donnée ne relève Une organisation en Feature Team
pas uniquement du marketing. On « À une époque nous avions une équipe de
trouve également celle des équipes six data scientists et six data ingénieurs sur
commerciales, des équipes produits, les un chantier d'optimisation d'achats media,
données transactionnelles, les achats en plus d’une dizaine d’autres projets. Cette
(voir ci-contre), les comptes client… organisation n’était pas optimale car les
Cependant, compte-tenu du métier personnes travaillaient de manière isolée.
principal de OUI.sncf, qui est l’expert de Pendant une semaine, un data scientist et
la distribution du train et de la destination une personne du marketing relationnel se
France, filiale du Groupe SNCF, la donnée sont retrouvés pour lister leurs besoins en
marketing reste un bien central de ressources sur ce chantier, et voir quel type
l’entreprise. d’équipe proposer. »

Le travail sur les destinations est un bon Le résultat a été la proposition d’un
exemple de ce que l’analyse des données chef de projet marketing relationnel, ne
a apporté. « Nous avons collecté des in- connaissant pas nécessairement les data
formations de navigation qui se rapportent sciences, trois data scientists, un ingé-
notamment à la destination recherchée par nieur data et un développeur. Se voyant à
l’internaute. Mes équipes ont créé des algo- présent tous au quotidien, les data scien-
rithmes de recommandation pour identifier tists appréhendent bien mieux les enjeux
les destinations auxquelles vous pouvez et besoins du marketing. « Nous déclinons
être sensible. Ainsi, chaque newsletter est ce schéma des feature teams sur d’autres 9
personnalisée. Nous avons 13 millions de domaines, comme l’acquisition et les cibles
visiteurs uniques, ce qui fait que nous avons prioritaires. C’est la création d’équipes au-
suffisamment de données à disposition » to-organisées et multidisciplinaires. »
explique Angélique Bidault-Verliac. Ces
données sont couplées à des informations Des équipes en évolution
météorologiques et à une bibliothèque Le management des équipes s’en est
d’images –et leurs attributs– de destina- trouvé transformé. Chacune d’entre elles
tion autour d’une ville. gère à présent sa propre feuille de route,
et Angélique Bidault-Verliac s’assure que
les projets avancent sans difficulté. Cette
1 million d’appels par mois autonomie gagnée lui a donné plus de
temps pour s’impliquer sur les méthodes
760 millions de recherches et pour effectuer un coaching adapté aux
par an sur OUI.sncf besoins et aux rythmes des différentes
personnes. « Des communautés de data
scientists sont créées pour qu’ils puissent
En utilisant des techniques d’A/B testing, échanger, qu’ils voient de nouvelles pers-
les newsletters personnalisées sur la pectives et ne s’ennuient jamais. Il y a
destination ont permis une augmentation des instances de partage régulier, dont il
de 20% de volume d’affaires par e-mail et faut trouver le bon rythme. L’évolution des
une hausse de 25% du taux de clics. équipes et celle des carrières sont liées. »
Des métiers en évolution
Si les équipes de data scientists sont au- nous cherchons des profils avec une dimen-
jourd’hui en évolution, c’est également sion machine learning et analyse statistique
parce que les métiers de data scientist ont des données, souvent appelé analytics. »


subi leur propre évolution, grâce à l’ex-
périence des premières années de data Selon la maturité des entreprises en
science dans les entreprises et dans les matière de culture de la donnée, qu’il
organismes d’enseignement supérieur et convient de jauger, et bien sûr du type
de recherche. de données qu’elles utilisent, les
profils de poste peuvent encore
Ardent créateur de liens entre l’en- présenter sous un même vo-
seignement, la recherche et les en- cable des réalités différentes,
treprises, Stephan Clémençon est et les collaborations des uns
professeur à Télécom ParisTech avec les autres en découlent.
depuis 2007, qu’il a rejoint pour y Chez OUI.sncf par exemple,
développer la recherche et l’enseigne- les data scientists ont un socle
ment du machine learning. Responsable mathématique très poussé, tandis que
de la première chaire de recherche en les ingénieurs big data sont plus orientés
big data (Machine Learning for Big Data , informatique, s’occupant de la collecte
10 page ), il est également co-responsable de la donnée et créant effectivement le
du programme de Mastère ­Spécialisé® code. Certes, les data scientists codent
« Big Data  », et a conçu le Certificat (en Python), mais pour passer en mode
d’études spécialisées « Data Scientist ». production, et industrialiser, leur code est
revu par les ingénieurs big data, avec une
« Auparavant », rappelle-t-il, «  les entre- réflexion sur le cadencement pour que le
prises effectuaient des recrutements big système global soit robuste.
data sans discerner s’il s’agissait d’in-
frastructures big data, de manipuler des Les passerelles existent entre les mé-
technologies telles que Casandra, Mongo- tiers, ou vers ces métiers, et c’est le rôle
DB, des bases de données, des graphes, des responsables d’équipes et des chief
faire du machine learning ou de la data data officers (voir ce métier pages  –)
visualisation, ou encore avoir quelqu’un de faire progresser les personnes selon
qui mette en place un lac de données –les leur appétence, et d’identifier celles qui
technologies et leurs termes évoluent éga- aiment la donnée pour les former vers ces
lement… Tous étaient recrutés sans dis- métiers, en partant de leur connaissance
tinction, sous la même étiquette big data. » antérieure de l’entreprise.
Maintenant les entreprises commencent
à identifier véritablement leurs besoins : Une explosion des méthodes
« s’agit-il d’infrastructures, d’apprentissage Les data scientists en poste doivent
machine ou d’exploitation des données  ? également s’adapter à la multiplication
Sous le vocable data scientist aujourd’hui, des nouvelles solutions technologiques.
« Dans le machine learning existe un cycle documents multimédia, reconnaissance
vertueux entre les applications et la théo- de sons et d’images… Elle interroge aussi
rie», poursuit Stephan Clémençon. « Les les aspects juridiques, économiques, poli-
méthodes sont requises par les applications tiques et philosophiques en relation avec
et les solutions sont apportées par les pra- l’utilisation des données personnelles.
ticiens et ensuite revisitées et améliorées
par les mathématiciens. Attention, car les À Télécom ParisTech, la proximité avec
effets d’annonce ne reflètent pas toujours les entreprises s’incarne par le choix
la réalité scientifique. Apprentissage par des intervenants dans les formations big
renforcement, apprentissage sur des séries data : « Stéphane Gentric (Research Unit
temporelles ne peuvent pas se traiter de fa- Manager chez Idemia) peut donner des
çon simple et naïve, sans un fort background cours sur le deep learning, et notamment
en mathématique sous peine de réinventer sur l’outil TensorFlow qu’il pratique et que
la roue. En formation, j’alerte les futurs data l’on ne retrouve pas dans un laboratoire par
scientists opérationnels sur le fait que la exemple. » Les intervenants sont soit issus
discipline va bouger et que c’est important du monde professionnel, avec une forte
de ne pas apprendre les techniques de l’état compétence opérationnelle et proches
de l’art comme étant figées. Le panorama des besoins des entreprises, soit des en-
des méthodes aura largement changé dans seignants chercheurs qui offrent une vi-
quelques années simplement car la techno- sion à long terme de leurs disciplines, et
logie change et le type de données auquel continuent à faire progresser le socle de
on est confronté, avec l’internet des objets connaissances qu’ils transmettent. L’en- 11
en particulier, n’est pas le même que celui seignement effectué est aussi une initia-
avec lequel on a pu faire la reconnaissance tion à la recherche et offre la capacité aux
de formes il y a quelques décennies. » élèves de lire des articles de recherche et
de continuer à progresser avec les bases
Et les liens tissés entre chercheurs et en- dont ils disposeront. « Aujourd’hui, on va
treprises profitent également aux élèves. être amené à traiter des flux de données,
des données hétérogènes échantillonnées
Se former en proximité avec de différentes façons, sous des contraintes
les entreprises et avec la de mémoire, de traiter du quasi temps
recherche réel, qui sont très différentes de ce qu’on a
connu. Ces méthodes sont en cours d’éla-
Le dynamisme de la filière big data dé- boration, et c’est pour cela que la recherche
coule d’une recherche pluridisciplinaire est également totalement indissociable de
stratégique et unique en Europe. Cette la formation. »
filière s’articule autour de nombreuses
thématiques : graph-mining et explora- Cette vision à long terme du domaine ren-
tion des réseaux sociaux, ranking et fil- force les thématiques d’actualité, traitées
trage collaboratif, détection d’attaques via des projets fil rouge et des séminaires,
et d’anomalies, mathématiques finan- qui sont autant d’opportunités pour les
cières, maintenance prédictive, ciblage étudiants de rencontrer les entreprises et
marketing, indexation et recherche de d’être au plus près de leurs besoins.
Des chaires et des liens
Télécom ParisTech, en partenariat avec des proximité avec les équipes de l’entreprise,
entreprises, et avec le soutien de la Fonda- qui suivent le déroulement de la recherche,
tion Mines-Télécom, a créé quatre chaires voient les résultats qui se dessinent, et
de recherche et d’enseignement big data, apprennent des choses, y compris si rien
au sein de l’IMT. Les chaires Valeurs et n’aboutit directement. La phase de trans-
Politiques des Informations Personnelles fert, c’est-à-dire concrètement produire
et Machine Learning for Big Data sont quelque chose qui est transférable pour
présentées en pages   et   respective- l’entreprise, peut toutefois arriver par la
ment, et la chaire Data Science and Artifi- suite. » Et comme pour les liens entre data
cial Intelligence for Digitalized Industry and scientists et métiers de l’entreprise, les
Services page . chercheurs de la chaire voient comment
leur problématique de recherche sera
Talel Abdessalem, directeur de la re- utile aux personnes avec qui ils discutent
cherche de Télécom ParisTech et ancien dans les entreprises. « Les financements
responsable de la chaire Big Data & Mar- permettent également de soutenir une acti-
ket Insights, explique l’intérêt d’une chaire vité de recherche fondamentale, dont la face
pour les entreprises : « Dans une chaire applicative, l’utilité, n’est pas forcément vi-
existe une certaine flexibilité pour l’équipe de sible tout de suite et le sera à long terme.
12 recherche, car la nature même des chaires, Les entreprises voient un double intérêt à la
le mécénat, fait qu’il n’y a pas d’obligation chaire : une utilité directe, et un moyen de
de transfert. Les comités de pilotage et les financer des recherches fondamentales sur
comités opérationnels orientent le travail le laboratoire, sur la recherche en France et
de l’équipe de recherche vers des sujets sur le développement de la science en géné-
concrets pour les entreprises. Il y a une ral, dont elles pourront profiter également.»

Chaire Big Data & Market Insights


Créée en 2014 et financée pendant trois ans par quatre entreprises partenaires,
Deloitte, Groupe BPCE, Groupe Yves Rocher et SNCF, la Chaire « Big Data & Market
Insights » regroupait des chercheurs spécialisés dans la gestion et la fouille de
données massives, l’extraction de connaissances à partir du web
et l’analyse de réseaux sociaux.

À l’origine de cette chaire, le constat que de plus en plus d’entreprises disposent


de masses de données relatives aux consommateurs, provenant de multiples
sources internes ou externes. Les travaux conduits pendant ces trois ans ont permis
notamment des avancées dans l’amélioration du ciblage marketing, les systèmes de
recommandation, la détection de communautés sur les réseaux sociaux
ou encore la prédiction du surendettement.

  bdmi.wp.mines-telecom.fr
La formation inséparable de la recherche

SE FORMER À LA DONNÉE
Télécom ParisTech est l’une des premières écoles d’ingénieurs à s’être investie
dans le big data avec la création dès 2013 d’un Mastère Spécialisé®. Cette formation
pluridisciplinaire débouche sur un savoir-faire opérationnel et prépare à l’ensemble
des métiers dans le domaine de la science des données. Elle couvre aussi bien les
aspects techniques que les aspects transverses et son programme évolue chaque
année. Voir l’enquête insertion pages -.

L’école délivre également, via Télécom Evolution, un Certificat d’Études Spécialisées


« Data Scientist », destiné aux professionnels souhaitant accroître leurs compétences.
La formation permet la maîtrise des techniques de gestion et d’analyse des big data et
des principaux algorithmes de machine learning. Voir l’enquête insertion pages -.

Deux nouvelles formations viennent de voir le jour en 2019 : complémentaires et ré-


pondant aux nouveaux besoins des entreprises tout en faisant échos à la recherche
conduite à l’école, elles se focalisent sur l’intelligence artificielle. Voir pages -.
Florence d’Alché-Buc, Professeur à Télécom ParisTech en in-
formatique et mathématiques appliquées, en est l’une des res-
ponsables pédagogiques.
13
Dans un domaine aussi complexe et changeant que la
science des données, l’enseignement doit faire appel aux
dernières avancées de la recherche pour rester pertinent.
Florence d’Alché-Buc est convaincue de l’importance de
ce dialogue. Ses travaux de recherche, qui ont donné lieu
à plus de 80 publications dans des journaux ou conférences
internationales, portent sur l’apprentissage statistique, l’inférence de réseaux, la
prédiction structurée et la modélisation de systèmes dynamiques.

En parallèle, elle s’est très tôt investie dans l’enseignement des sciences de la
donnée : elle est ainsi co-responsable, depuis sa création, du Master 2 « DataScience »
co-habilité avec l’École polytechnique, l’ENSAE ParisTech et l’Université Paris Sud.
Elle porte la chaire d’enseignement « Pédagogie des Sciences de la Donnée » qui
reçoit le soutien de BearingPoint pour développer la formation dans cette discipline
via des projets, challenges, hackathons… Florence d’Alché-Buc est également à
l’initiative, en 2016, de la première édition de la Junior Conference on Data Science and
Engineering, qui permet aux étudiants de présenter leurs travaux et de développer
leur sens critique comme dans une conférence scientifique. Elle a enfin créé et
pilote la nouvelle chaire « Data Science and Artificial Intelligence for Digitalized Industry
and Services » (voir page ) qui promeut à la fois la recherche et l’enseignement : la
boucle est bouclée.
MOOC Fondamentaux pour le Big Data
Premier contact avec les Sciences de la donnée
CONTACT
INSERTION

Premier contact ou reprise de contact avec le monde des données, les MOOC
offrent une solution flexible, accessible et compatible avec une activité profes-
sionnelle, permettant d'apprendre à son rythme. C’est également l’occasion de
PREMIER

discuter avec une grande variété d'autres apprenants, et une solution idéale
pour pouvoir situer son appétance à aller plus loin dans un domaine d’actvité.
ENQUÊTE

Télécom Evolution propose sur 6 semaines le MOOC « Fondamentaux pour le


Big Data ». S’adressant à un public ayant des bases en mathématiques et en
algorithmique, il permet un rafraîchissement de ces connaissances pour
suivre des formations en science des données et intelligence artificielle.
Les compétences visées constituent un préalable indispensable dans les
domaines de l’analyse, de l’algèbre, des probabilités, des statistiques et des
bases de données.

Le MOOC, qui se termine par un quizz validant les acquis, se compose de sept
parties : programmation Python, limites des bases de données relationnelles,
algèbre, analyse, probabilités, statistiques et d’un exemple de classifieur, le
14 perceptron. Six heures de vidéo ont également été produites en appui des cours.

Ce MOOC peut être suivi en préparation des Mastères Spécialisés® ou des


Certificat d’Études Spécialisées (CES) en big data, science des données et
intelligence artificielle proposés par Télécom ParisTech et Télécom Evolution.

Des formations proposées par Télécom Evolution


Télécom Evolution est la marque de formation continue des 3 grandes écoles
d’ingénieur : IMT Atlantique, Télécom ParisTech et Télécom SudParis. Spécialisé
dans le domaine du numérique, il conçoit et produit des solutions de formation
innovantes. La valeur des formations, certifiantes, en inter-entreprises ou
élaborées sur mesure, vient de l’attention portée aux besoins réels des
entreprises, avec qui Télécom Evolution travaille en étroite collaboration.

  www.telecom-evolution.fr/domaines/intelligence-artificielle-et-big-data

CONTACT
INSERTION
Ons Jelassi est enseignante – chercheuse de valider un pro-
à Télécom ParisTech et responsable des jet. » La 9e ses-
programmes de formation en big data et sion du MOOC,

PREMIER
intelligence artificielle. Ses travaux de re- qui a pris fin en
cherche portent sur le passage à l’échelle novembre 2018, a

ENQUÊTE
des algorithmes d’apprentissage et de compté près de 20 000
prédiction sur les données massives. participants. Plus de 2000 attesta-
Elle rappelle que le MOOC a été conçu tions ont été délivrées sur l’ensemble
au départ pour préparer les personnes des sessions du MOOC.
désireuses de suivre des formations big
data plus poussées. « Le sujet des don- À chaque session une communauté
nées impactant tous les secteurs d’activité, se construit sur les forums de dis-
nous faisions face à une très forte demande cussion, facilitant l’entraide et la
pour suivre nos formations diplômantes. Il constitution des premiers réseaux
était nécessaire de construire un parcours pour les futurs data scientists, les
préalable pour leur permettre de se prépa- échanges se faisant ou non en pré-
rer et de valider le niveau de connaissances sence des formateurs. Ces der-
­nécessaires.  » niers sont la force de ce MOOC, car 15
« ­Télécom ParisTech réunit un éco-
La première session attire un peu plus de système riche, avec des chercheurs
7400 personnes, et 293 décrochent leur at- en droit, en sciences économiques et
testation de réussite, « ce qui nous mettait sociales, dans les réseaux, dans l’in-
dans la bonne moyenne des MOOC où l’on formatique et dans les mathématiques
observe un taux de complétion de 5%. C’était appliqués, et dans des domaines
même un résultat plutôt élevé, compte-tenu connexes comme l’Internet des objets,
du niveau technique à atteindre sur 6 se- les transports intelligents ou la cyber-
maines à l’époque, avec en plus la nécessité sécurité. »

Télécom Evolution propose également une douzaine de stages de 1 à 3 jours permettant


un focus sur des compétences précises. Certains offrent un panorama plus général et
s’adressent à un public de non spécialistes.

Intelligence artificielle : attentes économiques et défis scientifiques (tout public) // Big data : premiers
succès et retours d’expérience (tout public) // Data Science avec Python // Data Science avec R //
Data science : introduction au machine learning // Big data : panorama des infrastructures et
architectures distribuées // Data science dans le Cloud : big data, statistiques et machine learning //
Visualisation d’information (InfoVis) // Extraction d’informations du Web // Text Mining // Opinion
Mining : e-réputation et recommandation // Droit, RGPD et protection des données
Mastère Spécialisé® Big Data

96+T 76+
92+F
Accélérateur de carrière numérique
ENQUÊTE INSERTION

ont trouvé un

96% emploi facilement


ou très facilement
92% et 76% avant
même la fin de
leur stage de thèse
des étudiants et des diplômés professionnelle
sont satisfaits de leur formation

93
e+ +91+85+85
Ce qu'ils apprécient
dans la formation
Ils sont plutôt 93% 91% 85% 85%
satisfaits ou
très satisfaits…

…de l'ouverture
sur le monde de
l'entreprise …de la durée
…de la qualité …de l'équilibre de la formation
16 pédagogique des entre la formation
enseignants de théorique et
l'école pratique

90+L
Les entreprises qui recrutent nos étudiants

150=
15% TPE
380=
38% PME des entreprises
qui les emploient
270=
27% ETI
90% considèrent que
le big data est
200=
20% GRANDES ENTREPRISES une priorité

380=
38% dont Start-up

b+20+80+80+80+60
Salaire : + de 50k€ pour
69% des diplômés
24% 24% 24% 21% Salaire brut primes
7% comprises

moins de 40k de 50k de 60k plus


de 40k à 50k à 60k à 80k de 80k
Résultats issus d’une enquête conduite par Télécom ParisTech auprès des cinq premières prom
* Recueil réalisé en ligne du 11 décembre 2017 au 16 janvier 2018. 159 répondants sur un total d
Un Mastère Spécialisé® est une formation professionnalisante qui s’adresse à un public
de diplômés Bac +5 (ingénieurs et masters) en poursuite d’études ou en reconversion.

ENQUÊTE INSERTION
Bénéfices de la formation
Impact positif 92% accroît les chances
de la formation de trouver un emploi dans le Big Data
92% intérêt du poste 90% formation valorisée dans le monde du travail
76% niveau de responsabilité 89% permet de créer des contacts professionnels
79% rémunération 96% permet aux salariés en reconversion de se
réorienter professionnellement

Les deux grands profils types d'étudiants

290=
29% 710=
71%
en poursuite d'études en reprise d'études
Diplôme à l'entrée Expérience professionnelle

64+30+51v 45+21+1519v
dans la formation à l'entrée dans la formation

Doctorats Plus de 15 ans


17
Moins de 5 ans
Autres 5% 1% 19% 45%

30% 15%
Autres De 10 à
bac+5 64% 15 ans
21%
Diplôme ingénieur De 5 à 10 ans

1. Acquérir une 1. Trouver un emploi


double compétence ou en changer
2. Formation 2. Acquérir une
professionnalisante double compétence
3. Améliorer 3. Formation
sa rémunération professionnalisante
4. Renforcer sa légitimité 4. Améliorer
dans le poste sa rémunération

motions du Mastère Spécialisé ® Big Data


de 200 étudiants et diplômés
  www.telecom-paristech.fr/ms-bigdata
Certificat d'Études Spécialisées

89+T
Un cursus certifiant de haut niveau
ENQUÊTE INSERTION

90%
des répondants sont satisfaits de leur
formation et la recommandent

e+96+90+86
Ce qu'ils apprécient
dans la formation
Ils sont plutôt 96% 90% 86%
satisfaits ou
très satisfaits…

…de la qualité des


enseignements
assurés par les
…de la qualité …de l'équilibre
intervenants
pédagogique des entre la formation
extérieurs
18 enseignants de théorique et
l'école pratique

Impact positif Principales motivations


de la formation 1. 48% Acquérir une
double compétence
84% intérêt du poste
2. 45% Suivre une formation
80% niveau de responsabilité professionnalisante
58% rémunération 3. 37% Trouver un emploi
ou en changer

b+40+40+62+32+26
4. 34% Renforcer sa légitimité
dans le poste

31% Salaire : + de 60k€ pour


20% 20% 16% 13% 60% des diplômés
Salaire brut primes
moins de 50k de 60k de 70k plus comprises
de 50k à 60k à 70k à 80k de 80k
Enquête conduite en janvier et février 2019 auprès des 5 premières promotions
du CES « Data Scientist ». 64 répondants sur 88 interrogés soit 72% de répondants
Data Scientist
Parcours avant le CES Évolution professionnelle

ENQUÊTE INSERTION
66+15+163v 50+20+1812v
Moins de 10
Taille de
De 10 3% l’entreprise Moins de 10
à 249 en nombre de
salariés
12%
16% De 10 à 249
18%
15%
De 250 20%
à 4999
66% De 250 à 4999
50%
Plus de 5000 Plus de 5000
270+145+55+30= 195+190+80+35=

Formation initiale
Diplôme d’ingénieur 54%
165+105+40+30160 Secteurs d’activité
33% Activités financières et
Master 29% d’assurance
Doctorat 11% 21% Activités informatiques
et services d’information
Autre   6%
8%   Industrie
6%  Énergie
19
+

32% Autres secteurs :


Années d’expérience sociétés de conseil,
télécommunication,
Plus de 16 ans 39%
R&D, administrations,
=

10 à 15 ans 38% santé et action sociale,


5 à 9 ans 16% commerce
Moins de 5 ans 7%
Data Scientist

Ingénieur Manager data scientist


Fonctions occupées Consultant R&D
Chef de projet
Architecte de SI big data Data Analyst
Ingénieur R&D Ingénieur
Directeur datalab Data steward
Manager Ingénieur d’étude
Entrepreneur Marketing et big data

La formation se répartit en 12 sessions de deux jours sur 10 mois, ce qui permet


le maintien d’une activité professionnelle. Chaque session présente cours, travaux
dirigés et travaux pratiques ponctués par le témoignage d’un professionnel.
Trois grands domaines sont abordés : les données, l’apprentissage statistique et
l’informatique distribuée. Le CES se conclut par un projet personnel sur 3 mois.

  ces.telecom-evolution.fr/data-scientist/
Data analyst
DATA ANALYST

Les data analysts examinent les données d’une unique source


et travaillent sur des données déjà connues. Leur boîte à outils
statistiques et informatiques leur permet d’organiser, synthétiser
et traduire les informations utiles aux organisations pour orienter les prises de
position des acteurs décisionnels. Ils agissent en aval de la chaîne de traitement de
la donnée tout en collaborant avec les data scientists sur les dimensions technico-
scientifiques. Ils explorent et exploitent, extraient et analysent les données en
définissant des indicateurs clefs de performance (KPI) pertinents. Ils sont amenés
à vulgariser et à restituer de manière pertinente et sous un format exploitable les
résultats aux décideurs, notamment au travers de data visualisations. Avec les profils
d’expert en data visualisation et ingénieurs big data, ils sont une des composantes du
métier de data scientist et peuvent évoluer vers celui-ci.

b+100+6080
ech Busin
se t
ert i es
s
p
Ex

De
é

sign
Curiosit

Les spécialistes
spirit

20 1
3
5
d’une source de données
irit
Lea

sp
de

sh
er

k
ac
r

ip
Créativité H

Profil Formation type école de commerce ou école d’ingénieur

b+60+60402080100
Bonne connaissance des outils analytiques. Goût
pour les chiffres, sensibilité aux enjeux business. iz Math
taV s
Ces profils peuvent également être des consultants Da
freelance.
Bd
ry
Sto

Compétences Outils : Excel VBA, SQL, R,


ils Viz

Python, outils de visualisation


C o d er

1
3
5
de données (type Tableau)…
Out

Qualités : Capacité d’analyse, aptitude pour


Bi

Da ch
L
g

le travail en équipe, communication, curiosité ta Ma


D e e pL
intellectuelle…
Data manager

DATA MANAGER
Ces gestionnaires des données ont la charge quotidienne des jeux
de données de référence essentiels pour leur entreprise (clients,
fournisseurs, produits, marchés, données comptables…), qu’ils
doivent acquérir, maintenir et organiser. À partir d’un cahier des charges précis sur
les données à collecter, ils les recueillent, les mettent à jour et les nettoient, les
augmentent des données susceptibles de les compléter, et les sécurisent dans les
bases de données de l’entreprise. À l’aise dans la structure des données qu’ils ont
mis en place, ils doivent également la rendre accessibles aux autres utilisateurs, et
effectuent pour cela des tâches d’analyse et de restitution des résultats. Une grande
rigueur est exigée, notamment pour les jeux de données critiques dont la qualité et
l’intégrité doivent être conservées à leur plus haut niveau.

b+100+406080
ech Busin
se t
ert i es
s
Ex p

De
é

sign
Curiosit

Les gestionnaires des données

spirit
1 21
3
au quotidien 5

irit
Lea

sp
de

sh er k
ac
r

ip
Créativité H

Formation universitaire ou école Profils


d’ingénieur, spécialité statistiques

b+100+10040080
iz Math Bonne connaissance des outils de gestion de
taV s
Da données, des mathématiques, des statistiques.
Bonne connaissance du secteur d’activité
Bd
ry
Sto

de son entreprise.
ils Viz

Outils : Langages de requêtes Compétences


C o d er

1
3
5
de type SQL
Out

Qualités : Esprit de synthèse, travail aussi bien en


Bi

Da ch
L
g

ta Ma autonomie et qu’en équipe, rigueur, discrétion et


D e e pL
souci de la confidentialité
La data peut-elle tout résoudre ?
« La data est le nouveau pétrole ! » Si l’ex- ser pour leur vendre des services en plus
pression est souvent prononcée, elle est qu’ils n’avaient pas sollicités. Collecter et
assez trompeuse, relève Henri Verdier, conserver les traces numériques – dépla-
ambassadeur pour le numérique, an- cements, conversa­tions, navigation – est
cien directeur d’Etalab, le service chargé maintenant strictement encadré par le
de l’ouverture des données publiques, et Règlement Européen sur la Protection des
ex-administrateur général des données, Données (RGPD) et n’est pas forcément la
dans un billet paru sur son blog. Contrai- meilleure voie pour obtenir l’ap­probation
rement au pétrole, les données ne sont et la confiance des utilisateurs.
pas des ressources rares, les transformer
ne les détruit pas, les utiliser peut même Le rythme effréné des évolutions techno-
leur faire prendre de la valeur. Elles n’ont logiques, et l’ensemble des combinaisons
pas intérêt à être stockées en attente d’un possibles de ces outils ouvertes aux data
acquéreur, elles n’ont pas de valeur tant scientists, peuvent également constituer
qu’elles restent brutes, isolées, inanimées, un frein pour les utiliser de manière perti-
non agissantes. « Elles sont le substrat dans nente et adaptée. Ces technologies et les
lequel il faut apprendre à se mouvoir et, plus usages qu’elles offrent, enthousiasmants,
qu’une matière première ou une énergie, le restent en constante évolution, et il faut
22 code au cœur du réseau et le flux sur lequel savoir garder raison et modestie dans leur
se greffent les autres applications. » application.

Ces gisements soudains de valeur sus- Il est cependant indéniable que la data
citant un grand engouement, le recours science a tenu de belles promesses.
excessif à la donnée pour résoudre tous Comme le rappelle Stephan Clémençon,
les problèmes a parfois atteint des limites professeur à Télécom ParisTech, « per-
et pu décevoir. Certains se sont retrouvés sonne ne se lancerait aujourd’hui dans le
noyés sous un déluge de données qu’ils ciblage commercial sans un outil de scoring
ne savaient plus contenir, d’autres ont ou de recommandation. C’est une activité
oublié la nécessité d’arrêter l’exploration reconnue qui pèse plus de 20% de chiffre
à temps, et celle de sortir des produits d’affaires en plus. Dans le milieu industriel,
industrialisables sur la base d’un volume tout le monde utilise le terme de mainte-
et d’une variété maîtrisée des données. Le nance prédictive et l’identifie comme un ca-
recours systématique aux données et aux talogue d’outils qui permettraient de mieux
chiffres risque de pousser à une confiance gérer des infrastructures très complexes.
aveugle, or il faut aller voir les métiers pour C’est le cas dans le domaine du transport,
comprendre leur contexte, il faut écouter aérien en particulier, et dans les grands ré-
les clients qui remontent des ressentis seaux d’énergie. Comme on vend un service
sortant de l’ordinaire. Tout ne peut pas non plutôt qu’un produit, il s’agit de pouvoir le
plus être fait avec les données collectées maintenir à un certain niveau et de faire des
des clients, comme par exemple les utili- économies en le maintenant mieux. »
S’éduquer à la donnée
Pour le data scientist Yoann Janvier, le La France joue un rôle moteur pour amé-
principal frein à l’innovation en science liorer la culture de la donnée sur tout le
des données n’est pas vraiment la tech- territoire et en Europe, par son engage-
nologie : « c’est l’accès à la data, qui, pour ment ancien et soutenu dans le dévelop-
des raisons réglementaires et organisation- pement des open data – nouvelle licence
nelles, pose parfois problème. Ce nouveau parue fin avril 2017 –, à travers certains
métier est également très mystérieux dans articles de la loi pour une République
les entreprises dites classiques : il faut pas- numérique d’octobre 2016, comme l’ou-
ser du temps à expliquer, éduquer, dévelop- verture en avril 2017 du service public
per une culture de la data. Sans relais dans de la donnée de référence (base adresse
les organisations, le data scientist ne peut nationale, plan cadastral informatisé, ré-
pas grand chose. » En effet, si se former à pertoire des entreprises et des établisse-
la donnée fait partie du quotidien des data ments…), ou la tenue régulière de hack-
scientists, s’éduquer à la donnée est notre athons à portée nationale. « Sur les enjeux
affaire à tous. D’autant que les réglemen- de régulation», poursuit Gilles Babinet, « la
tations en lien avec la donnée sont nom- France a largement œuvré pour participer à
breuses. Citons par exemple le décret de l’élaboration du RGPD. Même si le texte final
juillet 2016 sur l’obligation d’ouverture et a fait l’objet de nombreux compromis, visant
de mise à disposition des données de pro- notamment à le ramener à sa dimension 23
duction et de consommation d’énergie des principielle, il ne fait que peu de doute que
opérateurs, l’obligation règlementaire eu- certains éléments, comme par exemple les
ropéenne faite aux assureurs et aux ban- pénalités imposables aux contrevenants, ont
quiers de rendre compte des risques de été influencés par la position française. »
solvabilité, ou encore le règlement géné-
ral sur la protection des données person- Les obligations règlementaires et les possi-
nelles (RGPD, voir page ). bilités offertes par des technologies à l’évo-
lution rapide sont à l’origine de nouvelles
Gilles Babinet, représentant la France fonctions et de nouveaux métiers. Garant
auprès de la Commission européenne d’équilibres précieux, le délégué à la protec-
pour les enjeux du numérique, et auteur tion des données (DPO, voir page ) s’as-
d’ouvrages sur le big data et sur la trans- surera que l’utilisation de données par une
formation digitale, y voit là « un vrai sujet entreprise ne nuit pas à sa réputation et que
d’éducation des citoyens. Je ne cesse d’être sa « stratégie donnée » reste conforme à ses
confronté à des fantasmes et à de la mé- objectifs généraux. L’éducation à la donnée
connaissance à ce sujet. Comprendre par passe aussi par l’étude et l’impact de nou-
exemple les bases du RGPD est loin d’être velles combinaisons technologiques. L’im-
superflu. C’est un texte fondateur et il ouvre mutabilité et la transparence inhérentes à
des enjeux de choix aussi à l’échelon du certaines blockchains, par exemple, posent
citoyen. Cette éducation vise également le des questions en termes de sécurité et de
personnel politique. » protection des données personnelles.
Maîtriser les algorithmes
Les données ne sont rien sans les algo-
rithmes qui permettent de les manipuler, Un algorithme est une suite finie
les transformer, les classer. Tri à bulles, et non ambiguë d’opérations
tri cocktail, tri par tas, tri quicksort… ou d'instructions permettant de
l'élève ingénieur perçoit rapidement que résoudre un problème ou d'obtenir
de nombreux algorithmes existent pour un résultat.
trier des données, que leur efficacité dé-
pend du type de ces données, et que leur Si cette définition est valable pour les
choix a des implications sur la mémoire algorithmes simples comme ceux du
utilisée et l'énergie consommée. Cette fa- tri, elle laisse de côté les conséquences
mille d'algorithmes de tri est une bonne des algorithmes plus généraux, larges et
introduction à la complexité des algo- complexes, en particulier ceux qui aident

‫رزمي‬
rithmes en général et aux questions tech- à prendre des décisions. L’évaluation des
niques à se poser en les créant. Et même impacts d’un algorithme est donc tout
pour un objectif simple comme le tri, vi- aussi essentiel que leur transparence – ils
sualiser leur fonctionnement est souvent font effectivement ce pour quoi ils ont été
nécessaire pour en saisir toutes les subti- créés – ou leur sûreté – ils ne sont pas dé-
lités et y trouver des pistes d'optimisation. tournables.
24
Le grand public s'est quant à lui peu à peu L’État a montré l’exemple en publiant en
familiarisé avec l'algorithme du moteur de mars 2017 un décret d’application de la loi
recherche de Google – sans en connaître pour une République numérique, relatif
nécessairement les détails – ou avec celui aux droits des personnes faisant l’objet de
de la timeline de Facebook. Il a appris que décisions individuelles prises sur le fon-
« tout le monde n'est pas égal devant l'algo », dement d’un traitement algorithmique.
et que selon son historique, sa provenance Dans un monde où nous serions « tous de-
géographique, et d'autres types de don- main algorithmés », selon la formule d’une
nées souvent personnelles, les algorithmes conférence proposée alors par le Secré-
pouvaient présenter une vision du monde tariat Général pour la Modernisation de
adaptée à celui qui l'utilisait. Avec les al- l’Action Publique, l’État redonne à chacun
gorithmes de recommandation qui influent la possibilité de connaître et comprendre
nos décisions et nos comportements, ils les décisions administratives prises à son
peuvent même finir par façonner le monde encontre. Que ce soit en matière de fisca-
à notre insu, comme dans le cas maintenant lité, ou pour Parcoursup, les applications
bien connu des «bulles informationnelles». sont déjà en cours. C’est un modèle à
Présenté comme une recette de cuisine, suivre pour les acteurs privés également,
avec ses données-ingrédients, illustré par et dans tous les cas un point de vigilance
du code informatique abscons ou s'écoulant pour les utilisateurs, qui doivent amélio-
comme dans Matrix, l'algorithme est ainsi rer leur culture algorithmique, tout autant
tour à tour inoffensif ou inquiétant. que leur culture des données.
Design, Données & Algorithmes
Qu’est-ce que concevoir de bons algo- dèle permettant de décider par approche
rithmes  ? Qu’est-ce que faire un trai- inductive et déductive, soit le raisonne-
tement respectueux des données ? Ac- ment par analogie ou différence, selon
tuellement préoccupation exclusive de une approche transductive. Le choix du
l’ingénieur, la modélisation d’algorithmes modèle pour la première porte en soi une
pourrait bien bénéficier de l’approche et vision du monde, et n’est donc pas anodin.
de la sensibilité des designers. La seconde méthode, qu’on retrouve dans
les algorithmes de recommandation,
Maguelonne Chandesris, data scientist, est moins rigoureuse mais plus simple
responsable de la thématique « Data, Mo- à mettre en œuvre. Dans les deux cas le
bilités et Territoires » chez SNCF Innovation code informatique façonne le monde et
& Recherche, est docteur en mathéma- établit une gouvernance algorithmée.

‫الخوار‬
tiques et diplômée du Mastère Spéciali-
sé ENSCI « Innovation By Design ». Elle L’automatisation des décisions pose des
y a mené une recherche sur les enjeux questions à enjeux forts. La sécurité et
du design dans la forme des décisions la fiabilité des systèmes automatiques
algorithmiques, que l’on retrouve sous doivent être garanties. Du concepteur à
forme d’un essai dans le n°4 de la revue l’utilisateur, en passant par le construc-
Sciences du Design. Illustrant son pro- teur et le propriétaire, les responsabilités 25
pos d’exemples puisés dans le domaine doivent pouvoir être établies. La déléga-
des transports – l’usage de la boîte de vi- tion de décisions aux machines et la capa-
tesse automatique, les évolutions encore cité de ces dernières à prendre des déci-
en cours de l’automatisation de la circu- sions éthiques doivent être étudiées. Les
lation aux carrefours et les algorithmes désirs et l’imagination ne doivent pas être
de calcul d’itinéraire –, elle rappelle que bridés par des algorithmes véloces et trop
l’automatisation des décisions n’implique friands de notre attention.
pas toujours son adoption, qu’elle modifie
l’environnement et les comportements, et L’acceptabilité des algorithmes est en jeu.
qu’elle peut brider les désirs des utilisa- Pour cela l’humain doit trouver une vraie
teurs au profit de tiers non nécessaire- place dans le couplage qui le lie de plus
ment connus. en plus aux systèmes numériques. L’in-
troduction d’empathie dans ces systèmes,
Pour prendre des décisions sur des cas d’une dose d’imprévu, et la possibilité de
précis, deux manières de raisonner sont ressentir et jouer avec l’algorithme, sont
possibles : soit l’établissement d’un mo- des pistes que le design peut ouvrir.

‫الخوارزمي‬, du nom du mathématicien du IXe siècle


Al-Khwârizmî, également géographe, astrologue et
astronome, considéré comme le père de l'algèbre, et qui a proposé
une première classification des algorithmes connus à l'époque, dont celui d'Euclide.
Boîte à outils d'algos
Choisir un algorithme ou une combinaison d'algorithmes qui permettent de
résoudre un problème de classification est un art et un savoir-faire qui peuvent
s'acquérir en partant d'exemples très visuels.
Télécom ParisTech participe au développement de Scikit-learn, un ensemble
d'outils en Python très prisé pour l'analyse et la fouille de données.

Un outil de la communauté Scikit-learn a été créé par les personnes


Le développement de Scikit-learn a faisant du machine learning pour des
commencé en 2006 lors d'un «  Google problèmes très appliqués. « Nous avions
Summer of Code », grâce au travail de David besoin de briques logicielles ultra solides


Cournapeau. La communauté scientifique car l’enjeu n’était pas de faire le logiciel,
Python avait alors besoin de briques mais de répondre à un travail applicatif. Nous
logicielles sur certains thèmes, comme avions la vision d'un logiciel qui soit simple
le machine learning ou le traitement à utiliser, très pragmatique, qui ne réponde
d’image, et c'est ainsi qu’est né Scikit- pas forcément à tous les cas d'usage
learn, le kit scientifique pour faire du possibles, mais qui permette de
machine learning. Entre 2006 et faire bien et simplement, de façon
2010 un autre français, Mathieu efficace, 80 ou 90% d'entre eux.  »
26 Brucher, a repris le projet et Et cet état d’esprit a perduré.
l'a fait vivre pendant sa thèse.
Alexandre Gramfort, chercheur « Depuis janvier 2010, plusieurs
en machine learning et traitement autres personnes ont été financées
du signal à Inria Saclay, se souvient. Il pour continuer le développement de Scikit-
était en post-doctorat en janvier 2010, et learn. » Maître de conférences à Télécom
« avec Gaël Varoquaux, Bertrand Thirion, ParisTech entre 2012 et 2017, Alexandre
Vincent Michel, d’Inria, ainsi qu'Olivier Gramfort lui consacre une fraction de son
Grisel et Fabian Pedregosa, des personnes temps. Depuis 2016 et dans le cadre d’un
qui avaient pas mal d’expérience logicielle contrat industriel dont il est responsable,
dans le monde de Python, nous nous deux ingénieurs y travaillent avec lui à
sommes enfermés dans une salle à Saclay plein temps. Des missions doctorales ont
et nous avons commencé à collecter tous été financées par le Center for Data Sci-
les bouts de code qu’on possédait pour ence de l’Université Paris-Saclay, et des
faire du machine learning, à les assembler doctorants de l’équipe de statistique du
dans une bibliothèque, puis à commencer département Image Données Signal à Té-
une documentation, écrire des tests, faire lécom ParisTech s’impliquent également.
de l’intégration continue. La plate-forme On compte aujourd’hui plus de 600 contri-
GitHub n'existait pas encore à l'époque buteurs dans le monde entier, et la pre-
et tout était mis sur Sourceforge. On a mière publication scientifique rédigée en
communiqué dessus assez vite. » 2011 a été citée plus de 14 000 fois.
Scikit-learn dans l’enseignement, et à Télécom ParisTech
À Télécom ParisTech, tous les enseignements en machine learning aujourd’hui sont faits
en Python. « Je suis un peu responsable de ce mouvement vers Python », explique Alexandre
Gramfort, qui poursuit : « la plupart des enseignements utilisent Scikit-learn, et quand ce
n’est pas le cas, c’est soit parce que les outils ne sont pas encore disponibles dans Scikit-
learn, soit parce que l’on souhaite que les élèves manipulent la donnée par eux-mêmes,
plutôt que d’utiliser des briques toutes faites. Les enseignants-chercheurs de Télécom
ParisTech maîtrisent Scikit-learn, l’utilisent en TP, et s’en servent en cours pour faire des
démonstrations. C’est également utilisé massivement dans toutes les grandes écoles de
Paris, et dans plusieurs universités, y compris à l’international. C’est vraiment un ensemble
d’outils très répandu qu’il est bon de connaître.»

27

L’enseignement par des spécialistes n’est pas la seule raison qui fait de Télécom
ParisTech un centre de gravité pour Scikit-learn. On y croise des core developpers, qui
ont les droits de validation et qui garantissent la bonne évolution de l’outil. « Le Center for
Data Science dont je m’occupe avec d’autres personnes à l’échelle de l’Université P ­ aris-Saclay 
pousse à l’utilisation de la data science à travers les disciplines scientifiques expérimentales.
C’est un lieu où les gens qui savent traiter et modéliser des données vont pouvoir rencontrer
ceux qui ont des données et qui ont des problèmes de la vie réelle.» Scikit-learn fait partie de
la boîte à outils de tout data scientist désireux d’être correctement équipé pour explorer
les nombreux pans du monde des données.

  scikit-learn.org
Qui utilise Scikit-learn aujourd'hui ?
On estime à 500 000 le nombre d’utilisateurs qui viennent chaque mois du monde
entier télécharger les outils et les mises à jour, inspecter la documentation. « Sans
nécessairement le dire officiellement, de nombreuses entreprises nous utilisent, des grandes
comme de plus petites. » Les logiciels et bibliothèques open source sont souvent cités par
les entreprises, et les data scientists sont invités à contribuer à leur développement, et
faire de la veille sur ces outils.
Ingénieur big data
INGÉNIEUR BIG DATA

Les ingénieurs big data s’occupent de la maintenance au


quotidien des bases de données et des frameworks big data. Ils
développent, entretiennent, testent et évaluent des solutions big
data, pour assurer que les infrastructures techniques tiennent la
charge sous la masse de données exploitée par les data scientists. Experts en data
warehousing, ce sont également eux qui font migrer les bases de données et les
frameworks des entreprises vers les évolutions les plus récentes. Ce métier est un bon
point d’entrée dans le monde de la donnée pour des profils issus d’écoles d’ingénieur
très poussés en informatique, avec des capacités d’évolution vers le métier plus large
de data scientist, dont il est une des composantes.

b+40+60100402080
ech Busin
se t
ert i es
s
p
Ex

De
é

sign
Curiosit

28 Tenir les promesses du big data


spirit

1
3
5
grâce à la technique
irit
Lea

sp
de

sh
er

k
ac
r

ip
Créativité H

Profil Formation IT

b+60+1004020
Ces profils peuvent également être ou devenir des
consultants freelance. Math
iz
taV s
Da
Bd
ry
Sto

Compétences Outils : frameworks Big Data


(Hadoop, spark…) et bases
ils Viz

C o d er

1
3
de données NoSQL (MongoDb, ElasticSearch, 5
Out

Cassandra…), Python, Java, Scala…


Qualités : Curiosité intellectuelle, rigueur,
Bi

Da ch
L

méthode, adaptabilité, anglais technique,


g

ta Ma
communication orale et écrite, travail en équipe… D e e pL
Quantique : vers l’hyper calcul ?
Alors que l’ère des big data ne fait que plexité est hors de portée des machines
commencer, avec son appétit féroce pour de Turing classiques. Parmi les secteurs
collecter les données produites quotidien- qui en profiteront en premier se trouvent
nement, et son lot d’algorithmes de plus la génomique, la médecine, la météorolo-
en plus subtils pour les traiter et en tirer gie, mais aussi l’énergie, les transports,
des modèles et des apprentissages, pointe l’aérospatiale… Certaines équipes s’in-
déjà avec les technologies quantiques ce téressent également à la conception de
qui peut être qualifié sans crainte de ré- nouveaux algorithmes de machine lear-
volution. L’informatique quantique néces- ning profitant des capacités hautement
sitera en effet non seulement des maté- parallèles du calcul quantique.
riels très spécifiques, mais également des
manières de penser et de représenter les Des constructeurs n’hésitent pas à an-
données et les algorithmes qui les traitent noncer début 2019 des ordinateurs quan-
radicalement différentes. tiques à 20 qubits à vocation commerciale,
mais il reste encore quelques années
Fruit d’une théorie – la physique quan- avant qu’ils deviennent communs et abor-
tique – centenaire, elle-même révolu- dables. Il faut s’y préparer cependant dès
tionnaire à son époque, les technologies maintenant. Pour les data scientists, le
quantiques se déclinent aujourd’hui en formalisme mathématique très rigoureux 29
quatre grands champs de recherche : les des sciences quantiques est de nature à
communications quantiques, le calcul les attirer, et nul doute que dans un avenir
quantique, la simulation quantique et les proche ces compétences soient de plus en
capteurs quantiques (métrologie de pré- plus demandées.
cision). C’est dans le premier domaine ∣0⟩
que s’inscrivent les systèmes de crypto-
graphie quantiques, spécialité de l’équipe
créée par Romain Alléaume à Télécom
ParisTech qui travaille notamment sur la x
y
distribution quantique de clés dans des
réseaux optiques.

Le calcul quantique est au cœur de cette


révolution, car sa promesse est de pouvoir
s’attaquer à des problèmes dont la com-
∣1⟩
La sphère de Bloch (du nom du physicien et mathématicien Félix Bloch) est une
représentation géométrique d’un système quantique à deux niveaux. Elle permet de
visualiser un qubit •, l’analogue quantique du bit (qui est dans l’état ∣0⟩ ou l’état ∣1⟩),
comme une superposition quantique linéaire de ces deux états,
α·∣0⟩ + β·∣1⟩, avec α et β deux nombres complexes vérifiant ∣α∣2 + ∣β∣2 = 1.
Rendre les données visibles


Des premières visualisations de données au système de travailler ensemble, en tirant
par Florence Nightingale (page ) et de la profit de ce que chacun fait bien », précise
représentation de la campagne de Russie James Eagan, maître de conférences à
1812-1813 par Charles Joseph Minard, Télécom ParisTech en inte-
aux travaux du statisticien Jacques Ber- ractions homme-machine.
tin et sa sémiologie graphique, puis aux « Il y a des éléments sur la
documents auto-expliquants du designer représentation qui peuvent
Bret Victor en 2011, savoir communiquer faire changer l’interpréta-
des données visuellement pour en révéler tion. La visualisation peut
les ressorts et les expliquer à ses interlo- être aussi un outil pour aider
cuteurs est une discipline à part entière. l’utilisateur à explorer ses don-
nées. Ainsi, si on ne sait pas quel est le mo-
La visualisation de données (data dèle, si on ne sait pas ce qu’on cherche, la
visualisation, dataviz) désigne un visualisation est un outil qui aide à explorer
ensemble de techniques et d’outils et comprendre quand on ne sait pas encore
permettant de mieux comprendre ce qu’on veut chercher ! »
et analyser les données, en les
traitant sous une forme visuelle, La visualisation de données ne s’exprime
30 interactive et graphique. pas que sur des supports fixes et figés.
Manipuler la dynamique d’un ensemble
Un premier objectif est de rendre les de données dans le temps, régler des
données plus intelligibles, plus immé- paramètres pour focaliser sur tel ou tel
diatement accessibles. Il s’agit d’attirer aspect, travailler la donnée de manière
l’attention du lecteur sur les faits sail- interactive, poussent l’imagination un
lants, par un choix judicieux d’organisa- cran plus loin. Hans Rosling, statisticien
tion spatiale, de liaison des éléments, de décédé début 2017, a donné ses lettres
couleurs, de formes, de typographies. de noblesses à cet art. Enfin, aidés par
Une dataviz réussie fera rentrer progres- les techniques de réalité augmentée, et
sivement l’utilisateur dans l’histoire des pilotés par des intelligences artificielles,
données, chaque choix visuel lui en of- il devient possible de plonger au cœur des
frant une nouvelle clé de compréhension. données. « La visualisation de données est
Deuxième objectif, la visualisation explo- une discipline complète», explique James
ratoire permet à l’analyste de naviguer à ­Eagan, «   l’union des statistiques, du design,
travers des ensembles de données multi- de l’informatique, complétées par les
dimensionnels et complexes, les diverses systèmes d’intelligence artificielle, la fouille
représentations graphiques à sa dispo- de données et le machine learning. » Pour
sition lui permettant de saisir les grands Charles Miglietti, cofondateur de la start-
phénomènes et les motifs cachés. « L’un up dataviz Toucan Toco (voir page ), la
des grands enjeux est de construire des data visualisation est tout simplement « le
systèmes qui permettent à l’utilisateur et dernier kilomètre de la donnée. »
Expert Data visualisation

EXPERT DATAVIZ
Le profil d’expert en data visualisation présente deux facettes :
il peut être utilisateur expert d’outils de data visualisation, et
effectuer du reporting et du story telling sur les données, ou
bien développeur front-end et back-end créant des applications de data visualisation
– en intranet, sur le web, sur des applications mobiles et sur papier. Grâce à leur
travail sur les interfaces, les experts en data visualisation permettent également
aux équipes opérationnelles d’y voir plus clair dans leurs données et d’identifier des
pistes d’analyse qui n’apparaîtraient pas de manière aussi évidente à leur simple
lecture. Ce métier demande beaucoup de travail et une grande culture pour choisir
les visualisations les plus pertinentes et les moins susceptibles d’apporter des
biais dans l’interprétation des données. Ces profils peuvent évoluer à terme vers
le métier de data scientist au sens large, dont il est un des rôles.

b+80+1006080
ech Busin
se t
ert i es
s
Ex p

De
é

sign
Curiosit

Le data storytelling est

spirit
1 31
3
le futur du reporting 5

irit
Lea

sp
de

sh er k
ac
r

ip
Créativité H

Les profils data maîtrisent les outils Profils & outils


de visualisation comme Tableau,

b+60+800100
Qlik, Microsoft Power BI, Excel…
iz Math
taV s Pour les développeurs web front end  : Javascript,
Da
D3.js, Angular.js, Django, html, CSS… Les
Bd
ry

développeurs front end & back end qui développent


Sto

les applications de data viz de A à Z ajoutent les


technologies de type Node.js, Java…
ils Viz

C o d er

1
3
5
Out

Qualités : curiosité intellectuelle, Compétences


créativité, sensibilité au design,
Bi

Da ch
L

autonomie, aptitude pour le travail


g

ta Ma
D e e pL en équipe, rigueur…
De man of science à scientist
L’origine du mot «  scientist 
», que l’on comme l’« illumination particulière de l’es-
traduit le plus souvent en français par prit féminin ». « Scientist » est créé à partir
« scientifique », remonte au début du XIXe de Science et Artist. Il reconnaît en Mary
siècle, au Royaume-Uni. Mary Somerville, Somerville et en d’autres scientifiques de
une chercheuse écossaise, y avait rédi- l’époque le génie créateur de l’artiste ca-
gé des livres savants réunissant des do- pable d’établir et de faire
maines jusqu’alors disparates des mathé- apparaître des liens
matiques, de l’astronomie, de la géologie, invisibles pour
de la chimie et de la physique. Son travail le commun des
était si clair et si fluide que ses textes for- mortels, et les
maient le cœur du premier programme traduire de belle
scientifique de l’Université de Cambridge. manière, poétique
parfois, pour toucher
En 1834, son traité On the Connexion of durablement le lecteur.
the Physical Sciences impressionna for- Raconter les découvertes de la science
tement ses pairs. William Whewell, pro- et les rendre moins absconses pour les
fesseur à Cambridge, écrivit un article non initiés, en les communiquant via des
32 élogieux sur Mary Somerville, utilisant images et des émotions ressenties, est un
pour elle le terme « scientist ». Il avait art qui mérite d’être reconnu et exercé.
proposé ce mot l’année précédente à la
British ­Association for the Advancement of Mary Somerville fréquentait le cercle in-
Science, à la fois parce que la désignation tellectuel The Analyticals, un groupe de
valant jusqu’alors, « man of science », était scientifiques qui souhaitait réformer et
de plus en plus controversée, et parce professionaliser la science britannique,
que les travaux des scientifiques deve- auquel participait Charles Babbage, l’in-
naient de plus en plus interdisciplinaires. venteur de la machine analytique. Elle lui
Mary Somerville n’était en effet pas sim- présenta Ada Lovelace dont elle était la
plement mathématicienne, astronome mentor. Cette dernière créa le premier
ou chimiste… Elle avait identifié les liens algorithme destiné à être exécuté par une
entre ces différentes disciplines et leurs machine, et contribua à jeter les bases de
méthodes d’exploration scientifique, avait notre informatique moderne.
su les articuler et communiquer cette
vision à ses contemporains de manière Combinant maîtrise des techniques et
élégante. Pour Whewell, il n’était pas suf- des technologies, vision transdisciplinaire
fisant de créer un mot qui ne fasse plus et art de raconter et d’enseigner, tout en
allusion au genre. Il fallait également étant impliquée dans les grands mouve-
traduire cette capacité à synthétiser des ments de son temps, Mary Somerville, la
champs scientifiques alors distincts, une première scientist, devrait être une source
idée rendue possible par ce qu’il décrit d’inspiration pour chaque data scientist.
L’hybridation des compétences,
une évolution de la data science
Si à l’époque de Mary Somerville il était naturel d’évoluer dans
plusieurs disciplines à la fois, et de se nourrir des unes et des autres,
la cybernétique naissante au sortir de la deuxième guerre mondiale
contribue à privilégier des approches mono-disciplinaires, qui
ne seront pas les plus fécondes. Dans le même temps, les
hommes prennent de plus en plus de place dans les métiers de
l’informatique, au point qu’une majorité de femmes aujourd’hui
pensent que coder n’est pas de leur ressort. Cette perte de diversité
de points de vue et des expériences s’est ressentie fortement dans
toute l’aventure de l’intelligence artificielle, et commence à être prise
au sérieux, notamment suite à l’observation que les robots algorithmiques
et mécaniques reproduisent les biais cognitifs de ceux qui les concoivent.

Les métiers de la data science puisent dans


de nombreuses disciplines. Celle ou celui qui 33
combine des compétences de data analyst
Transdisciplinaires et d’ingénieur big data, avec une conscience

par nécessité des besoins métiers et des fondements


marketing, ainsi qu’une appétence à rendre
les données visibles et compréhensibles, cette
personne aux talents hybrides est celle qu’on
connaître les données, appelle data scientist. Cette polyvalence est souvent
maîtriser les cibles représentée par le diagramme de Venn ci-contre, dont
métiers, proposer des
on trouve plusieurs variantes et qui reste une bonne
analyses, expertise…
boussole pour se situer dans cette galaxie de métiers.

Pour Yoann Janvier, ajouter ces diverses cordes


à son arc est une chance pour les futurs
Data
data scientists : « D'anciens dataminers
Science maths, stats, par exemple vont devoir acquérir l'agilité
intuition
pour aller puiser dans l'open source et pour
géométrique,
bases de données, faire de la data visualisation. Ailleurs dans
modèles,
prototypage, codage, algorithmique… les équipes, des juniors un peu trop geeks
agilité, hacking… doivent travailler leur communication et
leur organisation. » Les métiers de la data science
contiennent en eux leurs principes d’évolution.
Data Scientist
DATA SCIENTIST

Être data scientist, c’est être au cœur de la valorisation des


données, c’est comprendre les enjeux et les problématiques
stratégiques de l’entreprise et mettre en place des algorithmes
qui y répondent. Les data scientists vont à la rencontre des métiers pour en définir
les besoins, identifient les indicateurs et données pertinentes, et les analysent à l’aide
d’algorithmes qu’ils ont conçus. Ils interviennent à toutes les étapes de la chaîne de
données : définition du problème, collecte des données, nettoyage, mise en place
des modèles et création des algorithmes. Ils doivent ensuite savoir présenter et
prioriser les résultats pour les rendre exploitables par les décideurs. Il leur faut donc
d’excellentes capacités de communication car ils sont au contact des opérationnels
métiers, des profils plus techniques et des décideurs, et doivent adapter leur discours
à chacun. C’est particulièrement vrai dans les grandes structures en cours de

b+80+6010080
transition, où ils vont être sollicités pour faire de la vulgarisation et expliquer au reste
ech Busin de l’entreprise la démarche qu’ils ont adoptée et les
se t
ert i es
s conclusions qu’ils en ont tirées.
p
Ex

De
é

sign
Curiosit

À la croisée de trois domaines :


spirit

34 1
3
5
mathématiques, IT, business
irit
Lea

sp
de

sh
er

k
ac
r

ip
Créativité H

b+100+8010060
Profil Formation mathématiques-statistiques ou informatique
iz Math
taV s
L’orientation à dominante IT ou à dominante maths Da
dépend des problématiques de l’entreprise. Sensibilité
Bd
ry

aux enjeux business, notamment dans les secteurs


Sto

comme le marketing, le web, la publicité…


ils Viz

C o d er

1
3
Compétences Méthodes : Analyse de données, 5
Out

modélisation, machine learning…


Outils : Python, R , Java, C, C++, Matlab, écosystème
Bi

Da ch
L

Hadoop (Hadoop, Hbase, Hive, Pig, Mapreduce…),


g

ta Ma
Spark… Qualités : Curiosité intellectuelle, capacité D e e pL
d’apprentissage, rigueur, aptitude pour le travail en
équipe, communication…
Des data scientists au quotidien


Après avoir obtenu le Mastère Spécialisé® Big Data de Télécom ParisTech,
Kim Pellegrin a intégré une direction des systèmes d’information chez Dassault
Systèmes. «  Ma mission consiste à améliorer les outils de traitement
de l’information en apportant des solutions innovantes de machine
learning. Cela concerne les moteurs de recherche, les moteurs de
recommandation et les outils de support métiers.  J’interviens en
apportant une expertise et en réalisant des prototypes, l’industrialisation
des solutions retenues se faisant avec les équipes de développement. À
la différence de l’approche déterministe du développement classique, la
data science s’inscrit dans une méthode expérimentale et itérative. Il faut
réaliser des prototypes pour pouvoir évaluer la faisabilité et la valeur du service final. Il est
donc important de savoir expliquer aux métiers ces nouveaux modes opératoires. Être data
scientist nécessite une expérience technique et des connaissances théoriques solides, de
prendre du temps pour faire de la veille, d’identifier des points sur lesquels on est moins
à l’aise. C’est un cheminement de plusieurs années, pour un métier passionnant dont
l’apprentissage nécessite un investissement personnel important, mais c’est un parcours
qui est tout à fait réalisable pour un esprit curieux et toujours avide d’apprendre. C’est un
métier d’explorateur qui amène à découvrir et apprendre en permanence. »
35
Pierre Achaichia, responsable de dix data scientists chez Enedis (lire page ) estime
qu’« au-delà des connaissances purement techniques en modélisation, la méthodologie et
les capacités de communication / vulgarisation sont les compétences clés. Un profil idéal
de data scientist répond au moins aux critères suivants : il a été confronté à des problèmes
complexes ayant challengé sa créativité ; il a une expérience dans le développement d’un
projet informatique et a réalisé des travaux faisant appel à de la modélisation statistique ;
il peut expliquer clairement son métier et vulgariser les résultats d’une étude à une
personne non initiée. »

Yoann Janvier dirige une équipe de data scientists chez Ipsen (lire page ). Il livre
quelques règles utiles pour être à l’aise dans ce poste multi-forme. « Comprendre
comment fonctionne l’environnement autour de soi. Prendre de la hauteur vis-à-vis des
solutions suggérées et garder un focus sur les attentes business. Mettre en place de
la délégation et structurer l’équipe ou le data lab pour éliminer les tâches répétitives,
routinières et sans valeur ajoutée. Se concentrer, justement, sur les activités à valeur
ajoutée. Obtenir rapidement des premiers succès pour convaincre de la valeur de la piste
explorée, et pouvoir communiquer. Travailler pour cela en mode agile et éviter absolument
le mode tunnel. Garder du temps pour l’auto-formation et la veille, ce sont des conditions
de survie à long terme du data scientist. Enfin, éduquer l’environnement sur ce que la data
science peut  ou ne peut pas apporter. »
Déployer une charte data
Au Groupe La Poste, les activités de services courrier, colis, de la distribution, de la banque,
de l’assurance, de 33 des bâtiments et véhicules, des télécommunications et du numérique
s’appuient de plus en plus sur des données. Quelles que soient leurs caractéristiques –
données de gestion, données industrielles, données confiées par les clients particuliers
et entreprises, données de partenaires, données d’identification, données de transaction,
données d’interaction aux guichets, avec les postiers, au service client, sur les automates,
sur les sites web et applications mobiles et demain avec des objets connectés… –, toutes
sont nécessaires à l’efficacité des activités postales. Pour conjuguer confiance et traitement
des données, le Groupe La Poste, tiers de confiance, a formalisé ses engagements à
toutes ses parties prenantes, citoyens, clients particuliers, professionnels, associations et
entreprises clientes, fournisseurs, collectivités publiques et actionnaires. [Extraits de la
charte Data du Groupe La Poste, mai 2016]
jo u rs plus de mun
r tou se
r n com
e permettre aux e
vic
t

bi
personnes
or

avec les données de rendre accessibles


ngager pour le
App

flux et les préférences d’optimiser leurs


D on ner aux

gratuitement les
ses clients

on né es
de livraison des clients, actions en leur données d’intérêt
adapter nos processus restituant une général dont les
industriels aux information issue coûts techniques
36
sd

contraintes et besoins de de la valorisation de et de renoncement


leurs données
S'e
ur

la vie moderne
pe

so restent faibles
le

e
r

nn
es l ed
e c o n tr ôl

Chaire Valeurs et Politiques des Informations Personnelles


Coordonnée par Claire Levallois-Barth, maître de conférences en droit à Télécom
ParisTech, la chaire réunit une équipe pluridisciplinaire de chercheurs de Télécom
ParisTech, Télécom SudParis et Institut Mines-Télécom Business School. Elle traite
des aspects juridiques, techniques, économiques et philosophiques qui concernent
la collecte, l’utilisation et le partage des informations personnelles ainsi que leurs
conséquences sociétales.

La Chaire bénéficie du mécénat de IN Groupe, BNP Paribas, Qwant, Sopra-Steria,


Orange et Dassault Systèmes et d’un partenariat conclu avec la CNIL et la DINSIC.
Après les Identités numériques, son deuxième Cahier de recherche s’intéresse aux
marques et labels de confiance.

  www.informations-personnelles.org
Protéger les données personnelles
Données de santé, données de localisa- la confiance du citoyen européen dans les
tion, bulletins de salaire dématérialisés, nouvelles technologies. »
historique des sites que l'on visite, photo-
graphies de famille… toutes ces données En particulier, un nouveau principe est
personnelles que l'on confie aux serveurs introduit, le principe de responsabilité
circulent et peuvent être analysées et (accountability, que l’on peut traduire
exploitées à des fins utiles, ou plus pré- par obligation de rendre des comptes).
occupantes. Pour autant, elle ne peuvent « À tout moment le responsable de trai-
pas être réutilisées de n’importe quelle tement des données doit être en mesure
manière. Elles sont en effet soumises à de démontrer qu’il remplit ses obliga-
des règles juridiques strictes, qui visent tions légales, notamment qu’il gère les
à assurer la confiance des utilisateurs et risques d’atteinte aux données person-
donc le développement de nouveaux ser- nelles, et a mis en place les outils pour
vices. L’ancienne directive européenne en garantir la protection effective. » Ces
95/46/EC, transposée en France via la Loi éléments de démonstration, constitu-
Informatique et Libertés, a été abrogée et tifs de la confiance, peuvent prendre


remplacée le 25 mai 2018 par le Règle- la forme d’une politique de protection
ment Général sur la Protection des Don- des données, d’un code de conduite ou
nées. Celui-ci s’inscrit dans la continuité d’un mécanisme de certification ap- 37
de la directive de 1995, tout en ajoutant prouvés. Un des grands chan-
de nouvelles obligations. tiers actuels pour les data
scientists comme pour le ou
« Il est important pour les data scien- la Délégué.e à la protection
tists de repérer dans le cadre d’un des données (voir page  )
traitement big data les données juri- est donc de s’assurer de la
diquement qualifiées de personnelles, conformité des processus et
pour ensuite se conformer aux principes qui des traitements à ce nouveau règle-
s’appliquent », souligne la maître de confé- ment. La CNIL peut désormais infliger
rence en droit Claire ­Levallois-Barth. « Il y des amendes pouvant aller jusqu’à 4 %
a d’une part les principes clés déjà connus du chiffre d’affaires mondial de l’entre-
(finalités, qualité et durée de conserva- prise en cas de non respect du RGPD.
tion des données, mesures de sécurité et « Cette nécessité impose notamment de
de confidentialité, droits de la personne développer une véritable culture Informa-
concernée…) qu’il faut reprendre, et d’autres tique et Libertés et une approche trans-
part les nouveaux principes (protection des versale. Il s’agit en effet de prendre en
mineurs, droit à la portabilité des données, compte la protection des données dès la
Privacy by design…) qui doivent absolument conception d’un service ou d’un produit,
être respectés. L’objectif est de renforcer d’identifier les risques associés aux opé-
l’effectivité du droit fondamental à la pro- rations de traitement et de prendre les
tection des données personnelles, et donc mesures nécessaires à leur prévention. »
Du RGPD à l’IA éthique
Chartes d’utilisation des données, codes Ce qui est vrai sur le pan de la gestion
de conduite, guides des bonnes pratiques, des données personnelles et du consen-
formulaires pour recueillir le consen- tement, l’est également pour celui de la
tement des utilisateurs en matière de transparence des algorithmes, en par-
gestion des données personnelles… tous ticulier la protection contre les biais qui
ces instruments sont ce qu’on appelle du peuvent entacher leur conception, et pour
« droit souple ». celui de la place de plus en plus prépon-
dérante des intelligences artificielles. Là
Le Conseil d’État a donné en 2013 une dé- aussi, des data scientists doivent rester
finition du droit souple sur la base de trois éveillés et vigilants, car plusieurs écueils
conditions cumulatives : « ces instruments les menacent. L’un d’entre eux est de par-
ont pour objet de modifier ou d’orienter les ticiper à la construction d’une société ra-
comportements de leurs destinataires en dicalement différente et non désirée par
suscitant, dans la mesure du possible, leur le plus grand nombre. Un autre serait, par
adhésion ; ils ne créent pas par eux-mêmes des choix peu réfléchis, de provoquer une
de droits ou d’obligations pour leurs desti- réaction forte de régulation par le législa-
nataires ; ils présentent, par leur contenu teur, qui briderait l’innovation.
et leur mode d’élaboration, un degré de
38 formalisation et de structuration qui les Plusieurs initiatives ont vu le jour ces der-
apparente aux règles de droit. » nières années pour formaliser des ap-
proches éthiques du traitement de données.
Le foisonnement actuel des formulaires Fin 2018, au terme d’un long processus de
de recueil de consentement RGPD, tant réflexion et d’échanges entre scientifiques,
dans leur forme que dans leur périmètre, industriels et citoyens, l’Université de Mon-
montre à quel point ce droit souple fa- tréal a publié la Déclaration de Montréal
çonne notre quotidien. Un formulaire trop pour une IA responsable. Parmi les prin-
long, dans lequel il faut valider les cookies cipes d’un texte qui peut guider utilement
de chaque partenaire commercial, sera le savoir-être de tout data scientist, citons
de nature à influencer les utilisateurs vers l’équité, la protection de l’intimité et de la
un abandon de leurs droits. Certains sites vie privée, la participation démocratique, la
se sont d’ailleurs fait une spécialité d’être prudence et la responsabilité.
trop complexes à cet égard, décourageant
individuellement les utilisateurs à proté- Mais attention, tous ces acteurs impliqués
ger leurs données personnelles, et cela ne sont pas habilités à créer du droit, le
pourrait également modifier les compor- législateur aura toujours son mot à dire
tements collectifs à plus long termes. Les et devra inscrire dans la loi des principes
data scientists qui sont en contact avec le comme la responsabilité, la loyauté, l’ex-
public ont une responsabilité importante plicabilité. Conscients de ces questions
sur la manière dont la société numérique juridiques, les data scientists sont égale-
se forme et se transforme. ment des auxiliaires de l’évolution du droit.
Data Scientist ou Data Engineer ?

FICHES MÉTIERS
Ce guide en témoigne, les métiers de la Les data engineers font en sorte que les
science des données sont nombreux, et données puissent parler efficacement
leur description peut changer d’un acteur et correctement, mais ce sont aux data
à un autre, ou évoluer dans le temps. Des scientists de les faire parler et de com-
passerelles sont possibles, des recouvre- prendre ce qu’elles expriment. Faire
ments de compétence sont courants, et faire le travail des premiers aux se-
de nombreuses formations permettent de conds les frustrera et rendra les équipes
faire évoluer sa carrière. La définition de de data science moins efficaces. C’est
data scientist elle-même, à la croisée de pourquoi il est important de bien s’en-
trois domaines – mathématiques, infor- tendre sur les tâches qui sont assignées
matique, business – a véhiculé cette idée à telle ou telle fiche de poste, et qu’il est
d’un métier à la fois multi-facettes et aux bon d’identifier les ratios entre les deux
frontières perméables. types de compétences. Deux à trois data
engineers pour un data scientist est gé-
Deux fonctions non néralement une bonne base, pouvant al-
interchangeables ler jusqu’à quatre ou cinq pour un, dans
le cas de jeux de données particulière-
Pour autant, il est essentiel de bien distin- ment complexes à orchestrer.
guer les différences entre certains métiers, 39
si l’on cherche à construire, ou à travailler Vers le machine learning
dans, des équipes performantes. Il est ain- engineer
si apparu au fil des ans que les data scien-
tists – au sens strict – et les data engineers Un mouvement moins courant, et plus
étaient parfois confondus. Certes, les deux récent, la transformation d’un data en-
baignent dans les données massives et les gineer en data scientist, s’observe ce-
deux doivent prendre en compte la dimen- pendant (voir fiche métier page ). Le
sion business de ces données. Les deux machine learning engineer qui en ré-
diffèrent cependant sur la trajectoire qui sulte est un alliage subtil entre l’appé-
les a amenés à leurs métiers. Les data tence particulière des ingénieurs pour la
scientists sont ainsi des mathématiciens rigueur et les certitudes, et le besoin des
et des statisticiens qui ont développé leurs data scientists classiques de naviguer
capacités dans ces domaines grâce à la en zone d’incertitude. Ce type de poste,
programmation, la création de modèles quand il s’ouvre aux data scientists, est
mathématiques, voire l’apprentissage ma- également la conséquence d’une matu-
chine. De leur côté, les data engineers sont rité des outils évitant à ces derniers de
des experts de la programmation qui se devoir coder des algorithmes avancés.
sont spécialisés dans les systèmes distri- Mais le machine learning engineer ne
bués et les big data, et savent assembler doit pas, à son tour, être confondu avec
les outils adéquats pour créer des pipe- l’ingénieur IA, comme nous le verrons
lines de données (voir page ). plus loin, page .
Les banques & assurances bougent
Banques et assurances sont de grandes d'assurances… mais ces données person-
maisons, pour la plupart anciennes, ayant nelles des clients ne doivent pas être ma-
une très large clientèle qui effectue de nipulées sans précautions, et sans suivre
nombreuses transactions journalières. le Règlement général européen sur la
La variété et le volume des données dis- protection des données personnelles.
ponibles y sont significatives, même si
chaque donnée est encore aujourd'hui « Concernant la prédiction du surendette-
relativement petite et structurée. Ces ment, » explique Talel Abdessalem, direc-
données, auparavant exploitées avec des teur de la Recherche à Télécom Paris-
outils statistiques classiques, le sont au- Tech, « les aspects réglementaires poussent
jourd’hui avec des techniques d’analyse les entreprises à faire appel au big data. La
qui ont changé la manière de travailler charte d’inclusion bancaire et de prévention
dans plusieurs types d’activité. du surendettement oblige les banques à es-
sayer de comprendre si leurs clients sont
En matière de prédiction, on sait mieux en train d’aller vers du surendettement,
aujourd'hui détecter les fraudes, par et d’essayer de mettre en place les mé-
l'analyse de comportements atypiques, canismes pour les aider à en sortir. » Les
et identifier les profils client suscep- banques sont obligées d’avoir un tableau
40 tibles d'être insatisfaits et de résilier leur de bord sur leur activité. Elles doivent pro-
compte. Mieux concevoir la tarification duire très rapidement certaines données
des services, notamment dans le domaine et mettre en place les infrastructures
des assurances, ce qui est le métier his- techniques permettant cette réactivité.
torique des actuaires, accélérer la gestion « On demande aux entreprises de plus en
des sinistres et celle des accès à un prêt, plus d’agilité, et pour gagner en agilité il faut
bénéficient également d'une meilleure mettre en place en interne des mécanismes
connaissance et utilisation des données de remontée, de traitement et d’analyse de
disponibles. Sans oublier l'optimisation données quasiment en temps réel qui font
des placements monétaires et la réduc- appel à des technologies big data. »
tion des risques inhérents par une répar-
tition optimale des portefeuilles suggérée Un secteur FinTech à la pointe
par l'analyse des données financières. Manipuler la donnée dans le secteur ban-
cassurance n’est pas un travail austère.
Un secteur poussé par la Pour imaginer les services innovants de
réglementation la banque de demain et se distinguer de
ceux de la concurrence, les données sont
La connaissance et l'analyse des tickets étudiées finement à la recherche de si-
de caisse des clients pourraient égale- gnaux faibles, et les technologies d’ap-
ment ouvrir la porte à de nouveaux ser- prentissage machine, de réalité augmen-
vices : aide à la maîtrise du budget, sug- tée, les objets connectés ou encore les
gestion d'achats, adaptation des primes cryptomonnaies font partie du quotidien.
La donnée connectée
« Les données sont au cœur de la recherche
Société Générale d'innovations de rupture » s’enthousiasme
146 000 salariés Emmanuel Bavière, responsable Centre
d’Innovation chez Société Générale, « Dans mon
50 000 serveurs
département, nous jouons le rôle de catalyseur
30 Po de données stockées
d’innovation pour les infrastructures de la banque,
pour tester rapidement des idées à travers des
preuves de concept et répondre aux besoins des


usages numériques tels que la communication
unifiée, le cloud mais aussi les technologies
émergentes comme l’utilisation de robots, les
services cognitifs, l’internet des objets, la 5G, les
ordinateurs quantiques ou encore
la blockchain… »
re
vie
ba

« On expérimente, on essaye, on


@e

se plante rapidement s’il le faut,


et surtout on apprend » poursuit
« La donnée Emmanuel Bavière, dont le rôle de 41
déchiffreur consiste à trier les idées en
moteur de amont et à communiquer les résultats en aval. Savoir
partager et diffuser ces expérimentations est en effet
l'innovation » essentiel, et tant l’utilisation et la production de données
que les principes d’innovation ouverte sont des moteurs
d’amélioration des logiques de plate-formes.

La banque s’est ainsi posé la question de l’utilisation d’un robot comme Pepper. Trois
cas ont été explorés : lors de forums étudiants et forum professionnels ; dans l’utilisation
interne chez Société Générale ; dans une agence bancaire. « Dans les forums, par exemple,

b+100+80100
les étudiants apportent leur CV, et soudain il y a trop de
e tech Busin monde. Le robot capte les personnes pour les aider, repère
s
rt i es
s
pe les personnes qui ont juste besoin d’une URL, ou renvoie
Ex

vers le bon interlocuteur. » Développé par des étudiants,


De
é

ce système sera versé sur GitHub, et des données


sign
Curiosit

associées seront placées en open data.


spirit

3
1 La même approche est retenue pour les agents
5
conversationnels, pour lesquels l’interaction doit
irit
Lea

changer en fonction des comportements de chacun :


sp

«On arrive à mieux valoriser les résultats


de

sh
er

k
ac
r

ip en les partageant.»
Créativité H

Retrouvez Emmanuel Bavière page 



Au sein de la Banque de financement et la donnée est une courbe de taux, non
d’investissement de la Société Générale, uni-dimensionnelle. C’est un objet com-
Marc van Oudheusden est Head plexe sur lequel une recherche d’anoma-
of Data Science, responsable lies mal conduite pourrait entraîner de
d’une équipe agile et homo- nombreuses fausses alertes. Il y a tout un
gène de data scientists travail de labellisation subtil à effectuer.
sans rôles spéciali-
sés, provenant du Un sujet récurrent est celui de l’automa-
monde des stats, tisation du classement de données, pour
des maths appli- détecter tel type d’événements sur tel pé-
quées ou de l’infor- rimètre d’observation, et fournir de l’aide
matique, et travaillant à la décision pour conforter les clients
en symbiose avec les dans leurs choix. La navigation de ces
process innovation de la banque. derniers sur les outils digitaux bénéficie
Il est également sponsor de l’équipe big du reste aujourd’hui de recommandations
data de la banque d’investissement, dont algorithmiques personnalisées, selon
il précise les projets à traiter. Les sujets, leurs demandes de cotations antérieures
nombreux, sont non triviaux. et leurs centres d’intérêt.

La détection d’anomalies, par exemple, ne Le langage naturel fait également partie


concerne pas que la fraude. Les équipes des projets de data science. Classer auto-
42 doivent certifier et valider des chiffres, matiquement des documents, zoomer sur
détecter des saisies incorrectes, des les endroits à traiter sont des fonctionna-
données manquantes. Sur des classes lités très appréciées par le back office en
de données de marché, la structure de charge de revoir des contrats.

Une organisation datalakes. Ils se retrouvent pour échan-


décentralisée ger sur les pratiques et les méthodes.

La Société Générale a une logique de data Plusieurs centaines de personnes tra-


scientists répartis au plus près des mé- vaillent aujourd'hui autour de la donnée,
tiers : banque de détail, banque d'inves- et ce secteur recrute : des data scientists,
tissement, assurances. Des relais Chief des ingénieurs data, des data architectes,
Data Officer ont été nommés dans ces des data quality managers.
lignes métiers, ainsi qu’à la direction fi-
nancière, à la direction des risques, dans Ces derniers profils viennent de la maî-
les grandes implantations… trise d'ouvrage stratégique, en charge
de piloter la qualité de la donnée sur un
Pour autant ces data scientists ne sont périmètre. Ils analysent la qualité, et or-
pas isolés. Organisés en communautés, ganisent des actions de remédiation, des
ils s’appuient sur les services informa- campagnes qualité, ou bien des modifica-
tiques, où s’opèrent un nombre limité de tions sur le système d’information.
Créer les conditions pour développer les usages de la donnée
Dans une entreprise où le développement développer la culture de la donnée, de créer
de l’usage de la donnée se fait partout, la gouvernance (rôles et responsabilités), et
il faut un Chief Data Officer. Chez Société de définir avec les métiers leurs principes
Générale, Emmanuelle Payan y occupe d’action sur les données, ainsi que leur
cette fonction. Rattachée à la direction des protection et leur mise en qualité...
ressources et de l'innovation, son rôle de Dans son champ d’action également, les
facilitatrice consiste à créer les conditions programmes réglementaires comme le
dans lesquelles le Groupe développe RGPD (cf. page ).
l'usage de ses données, dans le respect
des principes de sécurité et de protection Au plus près des métiers
des données qu'ils se sont définis. S’appuyant sur les lignes métier pour les
déploiements, Emmanuelle Payan les aide
« Nous avons désormais accès à des à définir la stratégie de la banque data.
technologies plus performantes et des « On veut être tiers de confiance : comment
volumes de données plus massifs. Cela mettre cela réellement au cœur de nos pro-
nous permet d’améliorer la personnalisation jets ? Quel niveau d’information donner aux
des services à nos clients, notre efficacité clients sur l’utilisation de la donnée ? Com-
opérationnelle, être encore plus performant ment faire en sorte qu’un grand nombre
en matière de gestion de risques. En tant de personnes aient une vraie culture de la


qu’acteur bancaire, nous souhaitons être un donnée ? » À longueur de déplacements,
acteur responsable du traitement des données de conférences internes et de modules 43
de nos clients. Cela peut nous amener à d’e-learning, sa mission est finalement 
nous poser des questions de réaliser ou pas simple: « que chaque collaborateur dans le
certains traitements. » Sa mission est de groupe devienne data fluent ! »

Travailler dans une banque Compte tenu des enjeux


de recrutement, celui
L’essentiel pour un jeune data scientist de garder des collabo-
est d'être attaché à quelqu'un des mé- rateurs experts, et d’ac-
tiers, qui a une vraie connaissance de son compagner l’évolution des
métier, voit la valeur qu'il tire des don- personnes qui ont des compétences sta-
nées, et le placera en face de vrais sujets. tistiques, la banque a mis les moyens afin
de créer les conditions pour s'épanouir
Un acteur bancaire est une industrie qui dans un environnement agile. « Cette at-
par son histoire traite beaucoup de don- tractivité passe par le travail en réseau et
nées, beaucoup plus que dans une start- en communautés, les incitations à faire et
up, avec lesquelles on peut faire beaucoup organiser des hackathons et la tenue de
plus de choses. C'est très intéressant Techweeks. Il y a toujours la possibilité au
pour les jeunes data scientists, car les cas datalab et au Centre de compétences big
d’usage sont assez variés, et les datasets data de travailler sur des tests, et de s’es-
sont passionnants. sayer à de nouvelles technologies. »
Chief Data Officer
CHIEF DATA OFFICER

Le Chief Data Officer est le directeur des données de l’entreprise.


C’est un cadre dirigeant qui participe au pilotage de la stratégie
globale de l’entreprise, met en place les moyens et les équipes
– notamment les data labs (voir page ) – pour qu’elle soit data driven. Ses missions
sont également de s’assurer de la bonne collecte des données et de la transmission
des informations les plus pertinentes pour la prise de décision. La gouvernance des
données, leur contrôle, leur sécurité, leur niveau de confidentialité, la définition de
leurs propriétaires, sont également rattachés à ce poste.

Présent principalement dans les grandes structures manipulant une grande variété
de données et confrontées à de nombreuses réglementations, le Chief Data Officer
est proche du comité exécutif, sans en faire nécessairement partie. Leurs échanges

b+100+8060100
sont cependant réguliers, pour insuffler la culture des données dans le rythme de
l’entreprise, comme ils le sont avec les directions
s e tech Busin métiers pour lesquelles il apporte les solutions
rt i es
pe s data. Il est parfois rattaché au Chief Digital
Ex

Officer, dont la mission plus globale est de piloter


De
é

sign

la stratégie de transformation numérique de


Curiosit

44 l’entreprise. Ce poste va prendre à terme une plus


spirit

3
1 grande importance dans les organisations.
5
irit
Lea

sp

Une fonction multiple,


de

sh
er

c k
r

ip
Créativité Ha qui se crée et se transforme

Profil Formation type école d’ingénieur ou école de commerce

b+60+604080100
Excellente connaissance des technologies du big data,
expertise métier. Ce métier étant assez récent, il est iz Math
taV s
également possible d’y parvenir lors d’une évolution Da
de carrière.
Bd
ry
Sto

Compétences Qualités : capacité à convaincre,


ils Viz

travail en équipe, solide


C o d er

1
3
5
expérience dans les domaines du management,
Out

de l’informatique et du marketing, connaissances


des règlementations internationales et de leurs
Bi

Da ch
L
g

évolutions ta Ma
D e e pL
Les missions des CDO
Par leurs postes, dont ils sont souvent les Michel Lutz, Group Data Officer chez Total,
premiers titulaires, les Chief Data Offi- un des objectifs sur cette partie de la mis-
cer sont confrontés à de très vastes en- sion est la mise en production de modèles
sembles de données provenant de tous d’apprentissage statistique et l’améliora-
les métiers et services de l’entreprise. tion des interfaces utilisateur donnant ac-
À l’aide de leurs équipes de data scien- cès à la donnée et aux modèles.
tists et des équipes métier, ils placent les
données au cœur de la stratégie et de la Rendre le groupe data driven
culture de l’entreprise. « Que chaque collaborateur devienne data
fluent » comme le dit Emmanuelle Payan
Organiser & manager chez Société Générale, est en effet le
Fabrice Otaño, ex CDO du groupe Accor graal. L’action du CDO est de diffuser
(et aujourd’hui Global Chief Intelligence la culture de la donnée dans toutes les
Officer pour le groupe CARAT), a eu carte équipes, de créer et de développer des
blanche pour réorganiser des équipes au- réseaux, de manier les bonnes alchimies
paravant dispersées (finances, distribu- pour que des équipes et des données
tion, IT, base émergent les bonnes idées. Chez Accor,
« Il n’y a pas de fiche de donnée pour augmenter les revenus, on doit être
de poste définie référentiel, plus prédictif, et pour cela élargir les ca- 45
optimisa- pacités data du groupe. Des réseaux de
à l’avance » tion des prix, business analysts passés auparavant chez
data scientists), soit 90 personnes en Fabrice Otaño sont mis en place.
France et 700 dans le monde. Dans un
secteur où la chaîne de distribution est Des conseils pour ce poste ?
fortement disruptée par des acteurs pure La donnée est agile, c’est une valeur qui
player, la donnée est centrale pour réussir va se diffuser dans les
la transformation digitale : « Ma mission entreprises, qu’il faut
« Dans nos
est triple : think, anticiper la vision business aider dans cette tran- équipes,
de demain ; build, construire les outils big sition culturelle. Pour la diversité
data ; run, les faire tourner en continu et Stéphane Ternot, EDF,
s’assurer que les optimisations trouvées il faut « mettre en œuvre des profils,
passent à l’échelle industrielle. » le collaboratif, savoir par- c’est la clé »
tager différents points de
Évangéliser vue, et la valeur de la donnée augmente-
C’est sans doute la mission centrale, ra. C’est pour cela qu’on monte des plateaux
précisent-ils  tous, aller convaincre les multi-compétences autour d’un problème.»
clients internes : « Nous avons des tableaux Pour Michel Lutz, « il ne faut pas avoir peur
de bord, on peut à présent travailler mieux, de l’inconnu ! », et Stéphane Ternot ajoute :
qu’est-ce que vous pouvez utiliser de ces « On peut se tromper, on fait avec naïveté et
données que nous vous présentons ? » Pour bienveillance. »
Head of Data
HEAD OF DATA

Fort de son expérience à la fois en sciences de données et en


management, le ou la Head of Data est en charge de l’équipe data
science. Data scientist d’origine, ces chefs d’équipe échangent avec
les métiers de l’entreprise, pour en comprendre leurs modes de fonctionnement et
identifier des cas d’usage, et ce qu’une meilleure utilisation des données pourrait leur
apporter. Ils mettent en place des processus d’idéation qui permettent de faire émerger
de nouvelles idées, et de repérer les données pertinentes à traiter ou collecter. En lien
avec les directions métiers, ils travaillent alors à des solutions avec leur équipe de
data scientists, en mode exploratoire. Ils ne développent plus nécessairement au jour
le jour, et ont plus un rôle d’identification de problématiques à résoudre, souvent en
binôme avec quelqu’un des métiers pour en acquérir la culture. Ils sont également en
charge de trouver les sponsors en interne pour financer leurs travaux exploratoires,

b+80+4080
organisent des hackathons internes et mettent en place des data labs.
ech Busin
se t
ert i es
s
p
Ex

De
é

sign
Curiosit

Créateurs de valeur, en lien


spirit

46 1
3
5
avec les métiers de l’entreprise
irit
Lea

sp
de

sh
er

k
ac
r

ip
Créativité H

Profil Formation mathématiques-


statistiques ou informatique.

b+80+608040
L’orientation à dominante IT ou à dominante
mathématiques dépend des enjeux de l’entreprise, iz Math
taV s
de ses problématiques données, et de la taille des Da
équipes.
Bd
ry
Sto

Compétences Qualités : bon relationnel,


ils Viz

capacités de vulgarisation,
C o d er

1
3
5
aptitude pour le travail en équipe, rigueur,
Out

aptitudes managériales Méthodes : analyse de


données, modélisation, machine learning
Bi

Da ch
L
g

Outils : Python, R, Java, Matlab, Spark, écosystème ta Ma


D e e pL
Hadoop (Hadoop, Hbase, Hive, Pig, Mapreduce…)
Chef de projet data

CHEF DE PROJET DATA


Grâce à leur connaissance des enjeux et des problématiques liés
au big data, mais également des enjeux business sur un secteur
ou une entreprise, les chefs de projet data gèrent les projets
data de l’entreprise au quotidien. Ils font la liaison entre les profils IT et les profils
plus opérationnels. Rattachés au responsable de l’équipe données (Head of Data), ils
gèrent plus spécifiquement un aspect de la stratégie données de l’entreprise, comme
la gestion et l’enrichissement du socle de données, ou bien le déploiement d’outils
big data. Dans leur version « Data manager », ils sont également les garants de la
conformité et de la bonne organisation des données dans les systèmes d’information : à
la fois les données référentielles – liées aux catalogues fournisseurs, clients, articles,
etc.  – et les métadonnées structurantes – liées aux normes et aux règlements.

b+100+604080
ech Busin
se t
ert i es
s
Ex p

De
é

sign
Curiosit

Opérationnels de la donnée et

spirit
1 47
3
des projets orientés données 5

irit
Lea

sp
de

sh er k
ac
r

ip
Créativité H

Formation type école d’ingénieur ou école de commerce Profil

b+40+6004010080
Selon les entreprises, le profil recherché sera plus ou moins technique. Très bonne
Math connaissance métier, très bonne connaissance
iz
a taV s des enjeux data, forte orientation business
D
Bd
ry
Sto

Qualités : Capacités de Compétences


communication et bon relationnel,
ils Viz

C o d er

1
3
5 aptitude pour le travail en équipe, leadership,
Out

autonomie, qualités d’écoute, d’analyse et de


synthèse… Outils : Python, R, Java, Matlab, Spark,
Bi

Da ch
L

écosystème Hadoop (Hadoop, Hbase, Hive, Pig,


g

ta Ma
D e e pL Mapreduce…)
Architecte Big Data
ARCITECTE BIG DATA

Les architectes big data interviennent le plus en amont de


l’organisation du traitement de la donnée, en lien avec les
équipes informatiques et les managers de la donnée. Leur rôle
est de mettre en place toute l’infrastructure technique nécessaire à la collecte et
au traitement de gros volumes de données. Ils élaborent des schémas de systèmes
de gestion de données qui facilitent l’acquisition et la circulation des données, qu’ils
affinent et surveillent ensuite en permanence. Ils développent également l’inventaire
des données et les modèles de données. Grâce à leur vision d’ensemble des
technologies big data, ils assurent la cohérence de la structure des bases de données
et celle des frameworks, afin qu’ils soient en phase avec les besoins de l’organisation
et restent adaptés aux enjeux de l’entreprise.

b+40+6010080
ech Busin
se t
ert i es
s
p
Ex

De
é

sign
Curiosit

Organisateurs et responsables
spirit

48 1
5
3
de la vision d’ensemble
irit
Lea

des données
sp
de

sh
er

c k
r

ip
Créativité Ha

Profil Formation IT
Vision d’ensemble de l’écosystème

b+60+10080402060
technique, forte expertise technique. Bonne
compréhension des enjeux métiers et des iz Math
taV s
problématiques de data science. Ces profils peuvent Da
également être des consultants freelance.
Bd
ry
Sto

Compétences Outils : base de données NoSQL,


ils Viz

écosystème Hadoop, Spark…


C o d er

1
3
5
Out

Qualités : Curiosité intellectuelle, autonomie,


communication…
Bi

Da ch
L
g

ta Ma
D e e pL
Chief Technology Officer

CHIEF TECHNOLOGY OFFICER


Rattachés à la direction générale dans les entreprises, et
éléments clé dans les start-up, les Chief Technology Officers
sont des responsables de haut niveau expérimentés, qui ont
pour rôle d’insuffler la culture de l’innovation dans leurs organisations. Ils ont une
vision globale du système d’information de l’entreprise et sont un levier essentiel
pour le développement de la compétitivité de leur entreprise. Ils repèrent et testent,
ou développent avec les équipes de la direction des systèmes d’information, les
outils et les solutions technologiques innovantes, en pilotent leur mise en œuvre
et leurs évolutions. Ils s’impliquent dans la R&D et font le lien avec les start-up.
Comme le métier de chef de projet informatique, il ne s’agit pas a priori d’un
métier directement orienté data, mais être expert des technologies big data
devient de plus en plus indispensable pour les CTO.

b+80+4080100
ech Busin
se t
ert i es
s
Ex p

De
é

sign
Curiosit

spirit
Apporteurs d’innovation 1 49
3
5

irit
Lea

sp
de

sh er k
ac
r

ip
Créativité H

Formation école d’ingénieur Profil

b+60+80604020
Spécialistes des usages des nouvelles technologies,
Viz Math à la pointe de l’innovation et de la recherche. Une
D ata s
expérience significative dans la direction de
projets informatiques est nécessaire.
Bd
ry
Sto

Expertise en gestion de grands Compétences


ils Viz

projets et de projets transverses,


C o d er

1
3
5 appétence pour la R&D, compréhension des enjeux
Out

juridiques de l’utilisation des données…


Bi

Da ch
L
g

ta Ma Qualités : leadership, curiosité, expertise


D e e pL technique, goût des défis, organisation, rigueur
Des données sous haute protection
Vol de données d’entreprise ou de don- La sécurisation des données s’effectue à
nées personnelles collectées et stockées tous les stades de la chaîne de traitement
par les acteurs de la nouvelle écono- de la donnée, et relève de chacun des V du
mie, piratage et détournement d’objets big data. Leur volume et leur vélocité, leur
connectés, corruption de données en traitement en temps réel, nécessitent des
amont pour tromper les algorithmes, ces infrastructures de stockage et de calcul
quelques cas dont l’actualité se fait l’écho de haut technicité, qui ne se situent pas
régulièrement montrent à quel point la nécessairement dans les locaux de l’en-
sécurisation des données est une préoc- treprise et impliquent donc également
cupation de tous les instants. leur transport. Ce sont autant d’angles
d’attaque, qui peuvent aller du déni de
Deux métiers de la data science sont direc- service au vol de données. La variété des
tement liés à la sécurité et à la protection données, et la nécessité de les croiser pour
des données : l’expert sécurité, qui inter- en trouver les caractéristiques utiles, est
vient principalement dans les couches in- la source de risque de désanonymisation
formatiques et télécoms, et doit anticiper de ces données, ou de faiblesses dans la
les risques augmentés ou créés par l’uti- protection intellectuelle. Des données cor-
lisation des big data, et le Data protection rompues, des données de mauvaise qua-
50 officer, un métier nécessitant de bonnes lité, ont également un impact sur la véra-
connaissances juridiques, qui doit prendre cité des données traitées, dont l’utilisation
en compte l’évolution des contraintes ré- conséquente peut porter atteinte à la répu-
glementaires, et mettre en place la néces- tation de l’entreprise et à la confiance que
saire sensibilisation des collaborateurs. ses partenaires mettent en elle.

Se former à la sécurité big data à Télécom Evolution, « on collecte


La sécurité est l’affaire de tous, et comme des informations sur les attaques qui ont
celle des données doit s’effectuer sur déjà eu lieu, on a à disposition des données
l’ensemble de la chaîne de traitement, de vulnérabilité, des données de menaces
les data scientists sont concernés dans sur les systèmes de sécurité en place… Plus
toutes les déclinaisons de leur métier. on a d’informations de ce type et plus les ac-
tions de contre-mesure vont être efficaces. »
Compte-tenu des enjeux, et des tech- Et pour sensibiliser les élèves, les forma-
niques d’attaque qui ne cessent d’être tions font appel à des intervenants du ter-
imaginées, les diverses formations big rain, pour qui la sécurité est le quotidien :
data de Télécom ParisTech et de Télécom « Parmi eux, un commandant de l’armée de
Evolution disposent toutes d’un volet sé- terre vient faire des cours à nos étudiants
curité. « En matière de cybersécurité », ex- sur l’utilisation du machine learning dans la
plique Ons Jelassi, en charge du domaine cyberdéfense. »
Assurer à l’ère des big data
L’arrivée des big data a fortement changé à-dire comment prédire qu’un équipement,
le métier des assurances, dont la princi- un logiciel, un système risque de tomber en
pale composante est l’analyse et l’évalua- panne ou d’entrer dans une phase de fonc-
tion du risque, et donc de savoir faire un tionnement anormal, pour pouvoir résoudre
pari sur l’avenir. La collecte de données le problème à l’avance. Ceci est également
de plus en plus proches des assurés, via encouragé par l’internet des objets, le dé-
par exemple des objets connectés, l’ac- veloppement des capteurs, qui fournissent
cès à des données météorologiques plus plus de données sur le fonctionnement des
précises et à des données géospatiales équipements. » Ce qui s’applique au maté-
enrichies (voir page ), les systèmes pré- riel pourrait bien s’appliquer aux humains
dictifs de plus en plus performants et les également, le métier d’assureur évoluant
analyses comportementales effectuées pour devenir coach de l’assuré et l’aider à
sur de grandes cohortes d’assurés, ont se comporter de telle manière à éviter de
ouvert la voie à des produits d’assurances s’approcher des situations de risque, qu’il
personnalisés et avancés, avec parfois le s’agisse de conduite automobile ou de
risque d’aller trop loin, ou d’être soupçon- gestion de sa santé. Le suivi au plus près,
né par les clients d’en savoir trop sur eux. et notamment en matière de géolocalisa-
tion, exige cependant le respect de règles
Concernant les systèmes prédictifs, le déontologiques strictes. Et les assureurs 51
professeur Talel Abdessalem, Télécom doivent compter avec les grands acteurs
ParisTech, observe : « Il y a la prédiction de l’internet, qui en savent à présent éga-
du risque, et puis il y a la détection d’ano- lement beaucoup sur leurs clients, et
malies et la maintenance prédictive, c’est- pourraient venir bouleverser leur relation.

Executive MBA « Manager data scientist des métiers de l’assurance »


Comme pour les métiers liés à la sécu- encadrer des équipes spécialisées dans le
rité et à la protection des données, les big data appliqué à l’assurance.
métiers de data scientists liés au risque
et aux assurances peuvent bénéficier de La formation compte 68 jours en présen-
formations spécialisées. tiel sur 13 mois à raison d’une semaine
par mois. Le programme repose sur 4 pi-
Conçu en partenariat avec l’École Poly- liers : technique, à la fois en data science
technique d’Assurances, l’Executive MBA et sur les métiers de l’assurance, straté-
« Manager data scientist des métiers de gique, éthique et management. La vali-
l’assurance » s’adresse à des ingénieurs, dation de la partie data science du MBA
techniciens, chefs de projet, informati- donne lieu à la délivrance par Télécom
ciens, statisticiens, mathématiciens sou- ParisTech du Certificat d’Études Spécia-
haitant développer leurs compétences et lisées « Data Scientist ».

  www.epassurances.fr/emba
Expert sécurité
EXPERT SÉCURITÉ

Dans un contexte global où les cyberattaques se déploient à


grande échelle, les experts sécurité (ou cybersécurité) sont les
maîtres d’œuvre de la politique de sécurité d’une entreprise. Ils
évaluent le niveau de vulnérabilité des systèmes d’information et des systèmes de
gestion de données, que ce soit lors de l’acquisition des données, leur transport,
leur traitement ou leur stockage, rédigent les politiques et les standards de sécurité,
préparent les solutions pour les sécuriser et administrent les droits d’accès au réseau
et aux données. Ils doivent également mettre en échec les tentatives d’intrusion ou de
déni d’accès à ces systèmes. Ils ont un rôle de prévention et de remontée de risques
en amont, de détection et de lutte en direct, et d’explication et de réparation en aval
pour assurer la continuité de l’activité. Ils effectuent une veille technologique poussée
pour anticiper les futures défaillances ou attaques, et peuvent se transformer en

b+60+6010080
attaquants pour chercher et repérer les failles de
te c h B u sin leurs systèmes afin de mieux les combler.
se
ert i es
s
p
Ex

De
é

sign
Curiosit

Protéger les données


spirit

52 1
3
5
des cyber attaques
irit
Lea

sp
de

sh
er

k
ac
r

ip
Créativité H

Profil Ingénieur ou Master


en informatique, en

b+60+1006040
télécommunications & réseaux, en systèmes
d’information, avec une spécialité ou une iz Math
taV s
dominante sécurité Da
Bd
ry
Sto

Compétences Organisation, rigueur,


ils Viz

communication et pédagogie
C o d er

1
3
5
Out Bi

Da ch
L
g

ta Ma
D e e pL
Data protection officer

DATA PROTECTION OFFICER


Pour piloter la gouvernance des données personnelles, et en
vertu des règlements européens, il est recommandé et parfois
obligatoire, selon la taille des organismes, de désigner une
personne ayant une mission d’information, de conseil et de contrôle en interne :
le ou la délégué.e à la protection des données. En France ce rôle a pris la suite
de celui, bien connu, du correspondant informatique et libertés. Il a préparé
l’arrivée du Règlement général sur la protection des données personnelles, et
s’attache à présent à mettre en œuvre la conformité des données à ce règlement
et à ceux à venir. Ce métier comprend un volet essentiel de sensibilisation des
collaborateurs aux implications juridiques de l’utilisation des données. Son défi
est de se tenir au courant de tous les projets lancés autour des données, pour
pouvoir y apporter des préconisations suffisamment en amont.

b+100+6020100
ech Busin
se t
ert i es
s
Ex p

De
é

sign
Curiosit

Protéger les données confiées,

spirit
1 53
3
dans le respect des règlements 5

irit
Lea

sp
de

sh er k
ac
r

ip
Créativité H

Évolution du correspondant Profil


informatique et libertés ou

b+20+600
nouveau poste créé, les profils sont plutôt issus
iz Math d’écoles de commerce ou juristes, avec plusieurs
taV s
Da années d’expérience dans ces domaines.
Bd
ry
Sto

Culture générale, culture Compétences


ils Viz

internationale, connaissance
C o d er

1
3
5 et suivi des règlements et des normes,
Out

connaissances juridiques, capacités de


communication et de conviction
Bi

Da ch
L
g

ta Ma
D e e pL
Libérer l’énergie des données
En ce début de XXIe siècle, la transition optimiser le programme de fonctionnement
énergétique, un des volets de la transi- de ces moyens de production, du pluri-an-
tion écologique, passe par une prise de nuel jusqu’à H-1, à un pas de 30mn. Les
conscience de la crise énergétique et la angles d’analyse sont multiples : temporels,
possibilité de choix éclairés. Les données échéances, fiabilité des données, types de
permettent d’observer et de prédire si- production, valeurs du prix de marché. »
multanément et à toutes les échelles les Dans un premier temps un cluster Hadoop
impacts de nos décisions énergétiques, de est déployé, où les données sont envoyées
nos usages et de nos gestes du quotidien. en masse avant d’être mobilisées. Une
plate-forme logicielle est ensuite utilisée
La vision du producteur pour sortir des indicateurs de pilotage de
Stéphane Ternot est un data scientist du ces données. C’est alors une collaboration
secteur de l’énergie. Entre 2013 et 2015 il entre métiers et SI, et non plus la seule
fonde le datalab de GRDF, dont l’un des DSI qui teste les jeux de données. « Depuis
projets permettra à ce distributeur de 2016, l’enjeu a été de partager les données
mieux cibler, en mode prédictif, des ou- au plus grand nombre. Il s’agit de faire de
vrages potentiellement défaillants sur la donnée sur les usages de la donnée. Qui
sa chaîne de communication gazière. Il utilise quoi pour faire quoi ? Qu’est-ce qui
54 rejoint ensuite EDF où il développe une apporte le plus de valeur ? » Cet outil attire
approche similaire au sein de la direction l’attention d’autres personnes travaillant
optimisation amont-aval trading, une en- avec la R&D. Data scientists et consom-
tité très opérationnelle de 400 personnes. mateurs de données se retrouvent autour
« Les données que nous traitons sont des d’un wikipedia de la donnée, qui facilite la
séries temporelles pour l’ensemble des recherche et indique quelle donnée est
moyens de production d’EDF, nucléaire, utilisée par quel projet. Il devient possible
thermique à flamme, hydraulique… Le tra- de faire des études très rapides et d’être
vail de cette direction consiste à élaborer et très réactif.

Objectif: quantifier
Un mix énergétique
ne se construit pas de
manière isolée. Les
pays échangent entre
eux l’énergie qu’ils
produisent à partir de
sources diverses. Cette
carte, fondée sur des
données publiques
temps réel, permet d’en
visualiser les effets.

www.electricitymap.org
Pour le producteur d’énergie, l’objectif communicants, avec la possibilité pour le
est de mieux comprendre un portefeuille client de suivre sa consommation sur un
client qui évolue. En effet, les change- site Internet, mieux la comprendre et agir
ments de comportements, les possibilités pour la maîtriser.
d’autoconsommation, font que la baisse
globale de la consommation individuelle Pierre Achaichia est responsable de l’ac-
n’est pas uniforme, rendant plus com- tivité data science (dix data scientists),
plexe encore la prévision des moyens à as- rattaché à Pierre Gotelaere, manager de
surer à court et long termes. « Il s’agira de l’activité data & analytics (70 personnes
confirmer ou infirmer des choses cachées, environ, mixant compétences IT, data
d’identifier des singularités signifiantes analysts pour la qualité des données, et
qu’on n’aurait pas vues autrement, de faire les data scientists), pour le système Linky.
des requêtes sur des données bizarres, en « Nos données proviennent du matériel
méthode agile et rapide. » Tout est souvent Linky et de la chaîne communicante Linky.
question d’échelle. À grosse maille géo- Certaines sont structurées, d’autres non. On
graphique s’expriment des moyennes, trouve des données tabulaires classiques,
alors qu’une observation plus fine à che- des données techniques, des données orien-
val sur plusieurs zones fera émerger des tées graphe et des séries temporelles. Ce
dissimilarités invisibles. Disposer de ces sont par exemple les données du déploie-
grands volumes de données sous forme ment, comme la date de changement de
graphique est par ailleurs essentiel. compteur, l’entreprise de pose… Dans tous
les cas, la confidentialité et l’anonymisation 55
La vision du distributeur de ces données sont centrales. » Toutes
Collecter les données et faciliter les chan- ces données permettent à Enedis d’auto-
gements de comportement se fait aussi matiser les processus de supervision du
chez l’habitant. C’est dans cette optique système Linky, par exemple pour faire de
qu’Enedis, qui exploite 95 % du réseau la maintenance prédictive, et développer
de distribution électrique français, est de nouveaux services pour les métiers du
engagé sur un grand projet de remplace- distributeur, comme la détection des inci-
ment des compteurs par des compteurs dents réseau en temps réel.

Objectif: smart grids Se trouver à la fois au cœur d’un projet


Pour accompagner la transition énergétique, de déploiement d’objets connectés de
la croissance de la production d’énergies grande ampleur, et d’un enjeu de transi-
renouvelables et les nouveaux usages tion de portée mondiale, voilà le type de
comme les véhicules électriques, le réseau chantiers de longue haleine qui permet de
de distribution d’électricité évolue vers voir toutes les facettes de la data science.
un réseau dit intelligent. Une directive « Au delà de la technique et de sa maîtrise,
européenne a fixé l’objectif de déployer des l’état d’esprit, la curiosité, la volonté de tra-
compteurs communicants dans 80 % des vailler en équipe et de s’ouvrir et partager
foyers européens d’ici 2020. Enedis envisage sont primordiales pour réussir de tels pro-
d’en remplacer 90 % dans 35 millions de jets de data science », soulignent les deux
foyers en France d’ici 2021. équipiers d’un même élan.
La ville, terrain de jeux de données
Les 35 millions de compteurs Linky à D’autres ensembles de capteurs et jeux de
terme sont autant de capteurs pour ren- données sont également présents, utilisés
seigner sur l’état du réseau basse ten- ou produits par les collectivités, les entre-
sion, et préparer ce réseau à l’intégration prises –en délégation de service public ou
en masse des énergies renouvelables et non– ou les citoyens. En partageant ces
des véhicules électriques. Pour les col- données, ces acteurs permettent l’émer-
lectivités locales, les aménageurs du ter- gence de nouveaux services, parfois issus
ritoire et la puissance publique, se pro- du croisement improbable de données.
file une meilleure connaissance des flux Lors de hackathons, des équipes hybrides
d’énergie et un patrimoine d’équipements réunissant toutes les compétences de la
suivi avec plus de précision. data science, du développement à la vi-
sualisation, de la connaissance métier à
Le smart grid est un des cœurs battants celle des usages, de la fouille à l’exploi-
de la smart city, cette ville sensible qui se tation agile, créent de nouvelles syner-
construit, à la fois territoire technologique gies. Ces rencontres, qui ne se limitent
avancé, bardé de capteurs et de senseurs, d’ailleurs pas qu’aux enceintes de la ville,
et territoire humain animé, assurant le et se font dans les territoires ruraux éga-
bien-être de ses habitants et visiteurs. lement, ou à cheval entre territoires, sont
56
La data science, des statistiques à l’apprentissage machine
Pour Stephan Clémençon, professeur à Télécom ParisTech et co-responsable du
Mastère Spécialisé® Big Data, l’exemple de la ville connectée est typique d’un
déploiement à plusieurs étages de la data science.

« Quand on parle de ville connectée et de transports intelligents, cela sous-entend qu’on


collecte des données sur les usages et le fonctionnement des infrastructures. Ces données
sont d’un volume considérable, elles sont collectées en continu et il faut pouvoir les stocker.
Elles le sont souvent de manière assez brute, avec énormément de formats différents.
Seules les infrastructures et technologies big data permettent de stocker ces données
et d’y effectuer des requêtes de manière optimale ensuite.

Dans un premier temps, leur traitement peut être basique et ne demande pas un bagage
avancé de data science. Cela peut prendre la forme de simples statistiques descriptives
(nombre de voyageurs), mais c’est généralement plus complexe, car l’information est
massive. Il faut rapidement des outils de data visualisation pour la rendre intelligible et
permettre de monitorer et analyser le fonctionnement de l’infrastructure. Or, on attend
souvent un peu plus que tout cela : calculer des prédictions pour anticiper les pics
d’affluence par exemple. On souhaite que ces données permettent d’optimiser un certain
nombre de décisions. C’est là que le machine learning intervient. »
l’occasion pour des data scientists aguer- vices privés, la frontière se brouille entre
ris comme pour de futurs professionnels le champ d’intervention des acteurs pu-
d’échanger, de partager des points de vue, blics et privés sur un territoire de données
d’aller sur le terrain en situation et de tes- qui ne sont pas encore un bien commun.
ter de nouvelles techniques et approches.
L’ouverture des données est un appel à Passé par la mission Etalab (voir page )
l’ouverture des esprits. Romain Lacombe fait partie de ces jeunes
entrepreneurs pionniers qui mobilisent
Avec le développement des usages, cer- sur des enjeux de société les données
tains de ces services vont plus loin que publiques et ouvertes, ainsi que celles
leur visée initiale. Waze ne promet plus que chacun de nous peut produire, en
seulement aux conducteurs de trouver s’appuyant sur le développement d’objets
un trajet dégagé. L’application filiale d’Al- connectés et d’applications de visualisa-
phabet aide aussi telle ville à réguler son tion. Début 2017, sa start-up Plume Labs
trafic, telle autre à alimenter ses données a ainsi dévoilé Flow, un capteur personnel
prédictives, elle équipe tel constructeur mobile permettant de mesurer le degré
de capteurs, permet à tel assureur d’ajus- de pollution auquel chacun s’expose chez
ter ses primes en fonction des pratiques soi, à l’extérieur ou dans les transports. Il
de conduite. Sous l’impulsion de la dissé- y avait le quantified self pour mesurer les


mination et de la gestion partagée de ces données de son corps, il y a maintenant le
données, et avec l’apparition de data ser- quantified environement.
57
Entrepreneur de la dataviz de data visualisation de
Rendre la ville intelligible à travers des Toucan Toco, qui est née
data visualisations est une nécessité. Ces en 2014. Notre solution
outils permettent également aux aména- est un outil de reporting
geurs de l’espace public de mieux analy- visant à simplifier la com-
ser la performance des dispositifs qu’ils préhension de la donnée par
gèrent. Intégrant huit sources de données les néophytes en entreprise. Aujourd’hui,
distinctes –patrimoine, qualité, audience, mon activité se partage entre le commercial
cibles socio-démo et géo-comportemen- et le conseil en dataviz, le management, et
tales, points d’intérêt et points de vente, le développement et l’architecture de notre
profils consommateurs, bases d’images solution. »
et de textes–, la start-up Toucan Toco a
créé en 2016 une application permettant Intervenant dans les formations big data
à 250 utilisateurs commerciaux et marke- de Télécom ParisTech, Charles Miglietti
ting au sein des équipes JCDecaux d’ac- incarne avec passion deux aspects fonda-
céder à ces données en mobilité. mentaux de la data science : entreprendre
pour aller explorer le monde des données
Son fondateur, Charles Miglietti, est un et en tirer les ressources d’avenir, et sa-
data entrepreneur et un pédagogue de la voir donner la parole à ces données pour
donnée. « J’ai développé et codé le produit qu’elles expriment toutes leurs saveurs.
De l’open data à l’open innovation
Avant de pouvoir faire le story-telling des de personnes, et cherchent ensuite un bu-
données de ses clients, les connecteurs siness model. Certaines le sont aussi par le
de Toucan Toco agrègent les données développement d’outils ayant un impact. »
venant de leurs systèmes d’information
et de leurs bases de données. Des don- Producteurs et consommateurs de don-
nées externes à leurs applications, dis- nées à grande échelle, les services de
ponibles en open data, « comme les don- l’État et les grandes entreprises sont
nées macro-économiques ou la météo qui friands de rencontres avec les étudiants
peuvent influer sur la performance des acti- en data science et les start-up, prenant
vités de nos clients, » précise le data entre- des formes diverses comme des hack-
preneur Charles Miglietti, sont également athons, des challenges ponctuels ou à
traitées, enrichissant la base initiale. plus long terme. La promotion 2019 du
programme « Entrepreneur d’intérêt gé-
Ces données ouvertes et les nombreux néral », lancé par l’État en 2016, réunit
outils en logiciel libre sont une des rai- 28 entrepreneur.e.s pour résoudre, grâce
sons qui permettent de se lancer rapi- aux données, 15 défis d’intérêt général au
dement dans un projet entrepreneurial, y sein d’administrations pionnières.
compris pendant ses études. « L’investis-
58 sement est relativement modéré, » relève De son côté, SNCF met à disposition
Stephan Clémençon, professeur à Télé- nombre de ses données en open data sur
com ParisTech, « une idée de services, éla- un site dédié et animé. Celles et ceux qui
borée à partir d’algorithmes, et des compé- souhaitent prototyper, coder ensemble et
tences intellectuelles suffisent. Les services accéder à des données de transport très
de Cloud permettent d’exploiter des in- riches, comme les horaires planifiés et
frastructures qu’on ne possède pas et qu’on temps réel, les équipements et services
va simplement intégrer dans le business en gare, la régularité des trains, l’ac-
model de la start-up. » Le professeur Talel cessibilité des gares, sont régulièrement
Abdessalem ajoute : « Les personnes qui conviés à relever des défis dans des évé-
se lancent dans des start-up big data sont nements. Certains projets fil rouge du
motivées par les success stories. Certaines Mastère Spécialisé® Big Data de Télécom
travaillent sur des outils open source, cher- ParisTech ont d’ailleurs bénéficié de cet
chant à développer un outil qui devienne une accélérateur d’innovation au service de la
référence, utilisé par le plus grand nombre mobilité que représente cette initiative.

Télécom ParisTech héberge une spin-off, Score4Biz, qui s’appuie sur des technologies
propriétaires brevetées développées par des équipes de statisticiens et de traitement
big data de l’École. Son objectif : permettre aux entreprises d’améliorer la performance
de leur activité, en répondant à des questions business à fort enjeu, par application de
technologies d’analyse big data aux données des entreprises.
D’autres startups hébergées sont à découvrir page .
Quelles IA demain ?
L’intelligence artificielle (IA) – qui réunit un Début 2019, la revue MIT Technology Re-
ensemble de disciplines, des mathéma- view a publié une analyse de plus de 16 000
tiques aux sciences cognitives, en passant articles parus dans la base de données
par la logique, la théorie des jeux, la psycho- scientifique ouverte arXiv depuis 25 ans
logie cognitive, parmi d’autres – est encore et étiquetés Artificial Intelligence. L’utili-
jeune. Née en 1956, elle a alors comme sation de plus en plus courante des tech-
objectif de « chercher à produire, sur un or- niques d’apprentissage machine pour
dinateur, un ensemble de sorties qui serait trouver des motifs intéressants dans les
considéré comme intelligent s’il était produit données apparaît ainsi clairement à la fin
par un être humain ». Depuis, son histoire du siècle dernier. En 2012, la technique du
est parsemée de doutes sur la manière deep learning fait une arrivée remarquable
de procéder et d’avancées fulgurantes. dans les applications de reconnaissance
Pour autant, les connaisseurs estiment visuelle, avant de s’étendre à tous les
que nous n’en sommes qu’au début, son autres secteurs applicatifs. L’apprentis-
objet s’étant peu à peu transformé, sous sage par renforcement accompagne peu à
l’impulsion notamment des masses de peu ce mouvement, notamment depuis les
données, et d’une meilleure connaissance réussites d’AlphaGo. La mise à disposition
des processus cognitifs biologiques. Déjà rapide du code source de ces systèmes
opérationnelle sur de nombreuses capa- d’intelligence artificielle facilite la diffusion 59
cités (la reconnaissance visuelle, la détec- des idées. L’engouement actuel pour les
tion d’anomalies…) et dans de nombreux réseaux adverses génératifs (apprentis-
secteurs d’activité, elle est un champ où il sage non supervisé) semble ouvrir la voie à
reste encore beaucoup à découvrir. des processus artificiels créatifs.

Chaire Data Science & Artificial Intelligence for Digitalized Industry & Services
Quinzième chaire de Télécom ParisTech, cette chaire de recherche et d’enseignement est
établie début 2019 pour une durée de cinq ans avec l’aide de la Fondation Mines-Télécom
et le mécénat d’Airbus Defence & Space, Engie, Idemia, Safran et Valeo. Sa titulaire est la
professeure Florence d’Alché-Buc, enseignante et chercheuse à Télécom ParisTech en
informatique et mathématiques appliquées (voir son portrait page ).

Cette chaire s’intéresse aux systèmes d’IA qui doivent présenter des justifications de
leurs décisions, offrir des garanties de robustesse, une traçabilité de leur apprentissage…
Quand ils sont embarqués, ils doivent également communiquer avec leur environnement,
connaître leurs points faibles éventuels et s’améliorer continuellement au moyen
d’interactions pertinentes. Les données qu’ils traitent sont souvent des séries
temporelles qu’il faut pouvoir prévoir, et présentent des caractéristiques hétérogènes et
non étiquetées qu’il faut apprendre à modéliser.

  www.telecom-paristech.fr/dsaidis
Vers la transition cognitive
Transition énergétique, transition écolo- d’intelligence artificielle et aux techniques
gique, transition sociale, toutes reposent d’apprentissage machine ; elle rappelle
à un degré ou à un autre sur la transition qu’il faut prendre en compte toutes les
numérique. Cette dernière n’est pourtant intelligences humaines, tant individuelles
que l’arbre qui cache une forêt bien plus que collectives, dans leur diversité, dans
vaste et profonde : celle de la nécessaire leur provenance et leur mobilité.
transition cognitive, le passage de tous
nos objets, nos usages, nos activités, En englobant toutes ces intelligences – et
notre quotidien et notre société vers des on peut y ajouter la reconnaissance des
états où les systèmes d’intelligence artifi- spécificités de la cognition animale –, là
cielle augmentent nos capacités intellec- où la transition numérique actuelle est
tuelles individuelles et collectives. plus un substrat technique et socio-tech-
nique, la transition cognitive serait un mo-
Tous les pans de la société sont en train teur de l’évolution humaine. Et dans ce
de se cognitiser, comme il y a un siècle mouvement d’ampleur, les data scientists
ils se sont électrifiés, et donner un nom doivent prendre en compte, comme le
à ce phénomène c’est affirmer qu’il faut rappelle Alain Abramatic (lire page ), les
s’y préparer comme on s’est préparé et « réticences face à ces transitions qui néces-
60 adapté au numérique. Cette transition ne sitent une charge cognitive trop importante
remplace pas pour autant la nécessaire et qui apparaissent comme très intrusives.
transition numérique ; elle en est à la fois ll y a un réel effort à faire pour inventer des
l’étape suivante et le niveau supérieur. services qui apportent une véritable aide et
Elle ne se limite pas aux seuls systèmes qui soient faciles à comprendre. »

Chaire Machine Learning for Big Data


Active de 2013 à 2018 grâce au financement de BNP Paribas, Criteo, PSA Groupe, Safran
et Valeo, cette chaire portée par le professeur Stephan Clémençon avait pour objectif de
produire une recherche méthodologique répondant au défi de l’analyse statistique des
données massives et d’animer la formation dans ce domaine à Télécom ParisTech. Elle
a permis de produire des dizaines de publications scientifiques, notamment dans les
grandes conférences internationales comme ICML et NeurIPS.

La variété, la volumétrie et les dimensions des données disponibles rendant en effet


inopérantes les méthodes statistiques traditionnelles, les data scientists spécialisés en
apprentissage machine doivent élaborer et étudier les algorithmes permettant à des
machines d’apprendre automatiquement à partir des données, à effectuer des tâches de
façon performante et assister les humains dans leurs utilisations de la donnée.

  machinelearningforbigdata.telecom-paristech.fr
L’IA en France : les enjeux santé et emploi
Le rapport Villani « AI for humanity », paru le santé : analyse des images et examens mé-
29 mars 2018, et qui faisait suite à des tra- dicaux, médecine personnalisée, médecine
vaux antérieurs, a été l’occasion de définir prédictive, pharmacovigilance, gestion des
une vision et une stratégie française ambi- flux hospitaliers, etc. Dans le domaine de
tieuses en matière d’intelligence artificielle. l’emploi, les applications sont également
très prometteuses : recommandation per-
Sur un des grands thèmes du rapport, la sonnalisée de formation ou d’offres d’em-
santé à l’ère cognitive, le Président de la ploi, prédiction de l’évolution de l’emploi par
République avait annoncé par la suite la secteur industriel, etc.
création d’un laboratoire d’exploration
des données de santé, le « Health Data À terme, des outils seront mis à la dispo-
Hub », comme un des points forts de cette sition des professionnels de la santé et du
stratégie à déployer. La France dispose travail pour faciliter leurs prises de déci-
en effet, avec le Système national des sion. Il ne s’agit nullement de se substituer
données de santé (SNDS), de la base de à l’humain mais de l’aider en lui présentant
données médico-administrative la plus des informations pertinentes extraites d’une
importante d’Europe. Celle-ci, une fois masse considérable de données dispo-
enrichie de données cliniques, pourrait nibles. L’IA devrait donc à terme bénéficier
nourrir des algorithmes avec nombres à tous, en améliorant la prise en charge des 61
d’applications à la clé. Ce type de dispo- patients, et en orientant les demandeurs
sitif doit bien sûr garder en tête le respect d’emploi vers les bonnes formations et les
des droits des individus dont les données bonnes entreprises ou administrations.
sont utilisées. Les données de santé ne
sont en effet pas des données comme Pour arriver à cela, il y a d’abord un défi
les autres (voir page ), et les risques de d’ordre technique, car les données dispo-
discrimination, les jugements de valeur nibles sont complexes, hétérogènes et in-
ou les biais de représentativité sont des complètes. Il y a un énorme travail préalable


écueils à éviter. de nettoyage, d’annotation et d’uniformisa-
tion des données, pour les rendre exploi-
Thomas Bonald est professeur à Télécom tables à grande échelle. Le second défi est
ParisTech. Il travaille à
­ d’ordre éthique : l’IA apprenant à partir des
la mise en place d’un données a tendance à reproduire les biais
nouveau laboratoire qu’elles contiennent, que ces biais existent
commun portant sur dans le monde réel ou qu’ils soient artificiels
l’analyse de données (parce que certaines données manquent). La
dans les domaines de correction des biais est un des défis majeurs
la santé et de l’emploi posés à l’IA. L’autre est dans sa capacité à
par des techniques d’in- s’expliquer, donc à justifier ses prédictions
telligence artificielle. « On attend beaucoup ou recommandations de manière simple et
de l’IA, notamment dans le domaine de la compréhensible. »
SE FORMER À L’IA Intelligence artificielle : nouveaux enjeux,
nouvelles formations
Alors que l’utilisation des algorithmes s’est propagée dans tous les secteurs et que la logique
du big data et de la science des données est aujourd’hui mature dans les plus grandes en-
treprises, les formations diplômantes et certifiantes en IA sont de plus en plus recherchées.

Après la vague des data scientists, la demande de profils cadres et ingénieurs hau-
tement qualifiés ne fait que se renforcer pour répondre aux besoins des entreprises
dans leurs projets en intelligence artificielle, avec de nouveaux métiers qui font leur
apparition : ingénieur en IA, architecte en conception d’IA, intégrateurs d’IA, designer
d’interactions, cogniticien…

« Un nombre croissant d’entreprises souhaite établir des partenariats avec notre école
pour soutenir l’enseignement et la recherche dans le domaine de l’intelligence artificielle.
Le recrutement et la formation des meilleurs professionnels est devenu un enjeu majeur
qui se joue à l’échelle de la planète, avec une concurrence notable entre les géants du
numérique et les entreprises traditionnelles » indique Ons Jelassi, responsable des pro-
grammes de formation en science des données à Télécom Evolution.

Télécom ParisTech s’est ainsi associée l’ENSTA ParisTech, grande école d’ingénieurs gé-
62 néraliste, pour lancer en 2019 deux nouvelles formations : le Master Spécialisé® « Intel-
ligence Artificielle » et le Certificat d’Études Spécialisées (CES) « Intelligence Artificielle ».
Télécom SudParis intervient également dans le programme du Master Spécialisé®. Ce
partenariat entre trois écoles bientôt réunies sur le plateau de Saclay préfigure les syner-
gies qui seront mises en œuvre dans le cadre du nouvel Institut Polytechnique de Paris.

Des chaires pour dynamiser l’enseignement


Télécom ParisTech bénéficie du mécénat de quatre grandes entreprises au travers de
chaires d’enseignement dédiées à l’IA et à la science des données. Toutes ces chaires
ont pour objectif de promouvoir le développement de la formation dans ce domaine,
aussi bien pour les élèves ingénieurs que pour les professionnels en formation continue.

Data Engineering et Intelligence Arti- Methods and Algorithms for Artificial Intelli-
ficielle pour la Banque et l’Assurance, gence, portée par le maître de conférences
portée par le professeur Albert Bifet Olivier Fercoq avec le mécénat de Talan
avec le mécénat du Groupe BPCE
Data science pour le e-commerce, créée
Pédagogie des Sciences de la Donnée, por- par Télécom SudParis, portée par le pro-
tée par la professeure Florence d’Alché-Buc fesseur Pascal Bianchi avec le mécénat
avec le mécénat de BearingPoint de Vente-Privée.com

  www.telecom-paristech.fr/datascience
Grâce à l’expertise de l’ENSTA ParisTech en robotique, systèmes
autonomes ou design d’interactions, ces forma­ tions sont en
adéquation avec les enjeux métiers et répondent aux besoins
d’interaction avec l’environnement (apprentis­ sage en ligne, par
renforcement, avec des algorithmes embarqués et revisités),
de reconnaissance et modélisation / prédiction intégrant le deep
learning, mais aussi de gestion de nouvelles contraintes : fiabilité,
temps réel, confidentialité, interprétabilité...

Mastère Spécialisé® Intelligence Artificielle


Premier Mastère Spécialisé® généraliste en IA en France, ce cursus
professionnalisant très complet s’adresse à des diplômés en poursuite d’études ou
en reconversion. Il propose neuf mois de cours à temps plein, suivis d’un stage de
thèse professionnelle de 4 à 6 mois. Les cours couvrent trois grandes directions :
fondamentaux de l’intelligence artificielle, apprentissage et optimisation pour l’IA,
intelligence artificielle en interaction.

Certificat d’Études Spécialisées Intelligence Artificielle


Destiné aux ingénieurs, techniciens ou chefs de projet en poste qui souhaitent
évoluer vers les métiers de l’IA, cette formation de 25 jours sur 9 mois permet 63
d’aborder toutes les techniques avancées du machine learning comme le deep
learning, avec un focus sur la robotique et les systèmes autonomes. Elle est portée
par Télécom Evolution, l’organisme de formation continue commun de 3 grandes
écoles d’ingénieurs dont Télécom ParisTech.

TeraLab, une plate-forme pour la recherche et la formation


TeraLab, la plate-forme big data & IA pilotée par l’IMT, a pour objectif de doter l’in-
novation, la recherche et l’enseignement d’importantes capacités de traitement, et
de favoriser l’adoption des technologies big data. Infrastructure puissante, flexible et
de confiance, elle permet la consommation d’importantes quantités de mémoire vive.
Chaque projet évolue dans un espace cloisonné et sécurisé. Le niveau de sécurité
ainsi que l’environnement logiciel sont adaptés au besoin de chaque projet.

L’équipe TeraLab est appuyée par des chercheurs reconnus dans l’analyse des don-
nées et le machine learning. Elle aide ses utilisateurs à choisir le format de projet
le plus adapté à leur besoin : projet collaboratif, projet européen, défi, preuve de
concept… ainsi que l’accompagnement juridique adéquat. Plate-forme évolutive,
­TeraLab est constamment maintenue au meilleur niveau technique et d’intégration.

  www.teralab-datascience.fr
Machine Learning Engineer
ML ENGINEER

Data scientist qui a peu à peu développé de bonnes compétences


en codage ou ingénieur big data qui s’est intéressé aux techniques
d’analyse, le machine learning engineer est un type de profil qui est
de plus en plus recherché pour traiter des données complexes avec
une vue d’ensemble. Contrairement à l’ingénieur IA ci-contre, dont le champ d’action
se situe à l’interface entre la machine et l’humain, le machine learning engineer utilise
ses connaissances poussées en sciences cognitives (deep learning, general adversarial
networks…) pour faire parler les données. Il ou elle allie à la fois des connaissances en
mathématiques (statistiques, probabilités…), de grandes compétences en développement
(structure de données, complexité des problèmes…), une bonne compréhension des
techniques d’apprentissage (types d’algorithmes, stratégies, évitement des biais…) ainsi
que la capacité à développer des solutions industrialisables.

b+80+6010080
ech Busin
se t
ert i es
s
p
Ex

De
é

sign
Curiosit

Le data scientist de l’ère


spirit

64 1
3
5
cognitive
irit
Lea

sp
de

sh
er

k
ac
r

ip
Créativité H

Profil Auparavant data scientist ou


big data engineer

b+100+1006080
iz Math
taV s
Compétences Outils : Frameworks Big Da
Data (Hadoop, Spark…)
Bd
ry
Sto

et bases de données NoSQL (MongoDb,


ElasticSearch, Cassandra…), Python, R , Java,
ils Viz

Machine learning (Scikit-learn, Theano, Spark


C o d er

1
3
5
MLlib, H2O, TensorFlow)…
Out

Qualités : Curiosité intellectuelle, rigueur,


Bi

Da ch
L
g

méthode, adaptabilité, anglais technique, ta Ma


D e e pL
communication orale et écrite, travail en équipe…
Ingénieur IA

INGÉNIEUR IA
Bien qu’ayant également un profil ingénieur et versé dans les
sciences de la donnée, l’ingénieur IA ne doit pas être confondu avec
le machine engineer ci-contre. Son rôle est de concevoir et de mettre
en œuvre les programmes informatiques – leurs compétences en
développement doivent être élevées – qui s’inspirent des comportements intelligents
des êtres vivants et du raisonnement humain, pour des applications comme le
traitement d’images et de vidéos, la reconnaissance des émotions, le traitement du
langage naturel et la reconnaissance de la parole, les chatbots, les analyses prédictives,
les applications autonomes, la robotique… Des connaissances ou une appétence pour
la psychologie, la neuro-biologie, ou encore la théorie des jeux, disciplines qui entrent
dans le champ des sciences cognitives, sont un atout. Cette femme ou cet homme ont
une haute conscience des impacts de l’IA sur la société.

b+40+8010060
ech Busin
se t
ert i es
s
Ex p

De
é

sign
Curiosit

Expert en coopération

spirit
1 65
3
d’intelligences 5

irit
Lea

sp
de

sh er k
ac
r

ip
Créativité H

Masters, Mastères Profil


Spécialisés®, diplômes

b+100+401008020
d’ingénieur en informatique et en sciences
iz Math cognitives, avec spécialisation IA…
taV s
Da
Bd
ry
Sto

Ouverture d’esprit, curiosité, Compétences


ils Viz

connaissances techniques
C o d er

1
3
5 élevées (informatiques, mais aussi
Out

électroniques pour les systèmes embarqués,


mécaniques…), travail en équipe, goût pour la
Bi

Da ch
L
g

ta Ma veille scientifique et technique et l’échange avec


D e e pL les équipes de recherche.
Machine learning specialist
MACHINE LEARNING SPECIALIST

Ces data scientists se spécialisent sur les techniques et


algorithmes d’apprentissage automatique sur les données
et les systèmes d’intelligence artificielle. Ils dévelopent des
algorithmes avancés pour étendre les capacités des outils de traitement big data déjà
en production. Ils utilisent ces techniques pour trouver des caractéristiques nouvelles
dans les ensembles de données, pour créer de nouveaux modèles de données, pour
développer et évaluer des modèles prédictifs. Ils élaborent et testent des hypothèses,
puis analysent et interprètent les résultats. Ils produisent des solutions à partir d’une
analyse exploratoire d’ensembles de données multi-dimensionnels et complexes.
Compte-tenu des avancées actuelles dans ces domaines, ils effectuent une veille
continue et collaborent avec les équipes de R&D.

b+60+6010080
ech Busin
se t
ert i es
s
p
Ex

De
é

sign

Explorateurs de données
Curiosit

spirit

66
complexes et chercheurs de
1
3
5
irit
Lea

nouvelles pistes
sp
de

sh
er

ck
r

ip
Créativité Ha

Profil Masters ou Thèses en


informatique, sciences

b+100+8010060
cognitives, statistiques, mathématiques…
iz Math
taV s
Da
Bd
ry
Sto

Compétences Esprit d’initiative, esprit


ils Viz

pratique
C o d er

1
3
5
Out

Méthodes : Deep Learning, Random Forests,


Modèles de Markov cachés, SVM, Regression,
Bi

Da ch
L
g

Séries temporelles, Traitement du signal… ta Ma


D e e pL
Chercheur en data science

CHERCHEUR EN DATA SCIENCE


Faire de la recherche en data science peut signifier plusieurs
choses. Il y a tout d’abord les chercheurs qui font progresser les
techniques et technologies au cœur des différentes disciplines qui
composent les data sciences. Il y a ensuite celles et ceux qui utilisent les techniques
de la data science pour faire avancer les recherches dans leur propre discipline, selon
les nouveaux paradigmes scientifiques pour lesquels la donnée, puis depuis peu les
systèmes d’intelligence artificielle, sont leurs nouveaux instruments. Il y a enfin des
chercheurs pour lesquels l’évolution de la data science est un champ de recherche en
soi : designers, juristes, sociologues, économistes… Les avancées de la data science
se faisant à grandes enjambées et à l’échelle mondiale, ces chercheurs publient
en open source et en open data les logiciels et données qu’ils développent, et leurs
articles scientifiques suivent souvent les principes de l’open science.

b+20+60100
ech Busin
se t
ert i es
s
Ex p

De
é

sign
Curiosit

Inventeurs du futur

spirit
1 67
3
de la data science 5

irit
Lea

sp
de

sh er k
ac
r

ip
Créativité H

Masters ou Thèses en Profil


informatique, sciences

b+100+8010060
cognitives, statistiques, mathématiques…
iz Math
taV s
Da
Bd
ry
Sto

Ouverture d’esprit, curiosité, Compétences


ils Viz

transdisciplinarité
C o d er

1
3
5
Out Bi

Da ch
L
g

ta Ma
D e e pL
La Recherche en Data Science

“ Les données auxquelles s’est intéressée la chaire Big


Data & Market Insights (voir page ) proviennent
de multiples sources, comme des capteurs, des
réseaux sociaux, ou des traces laissées en ligne.
Entretien avec Talel Abdessalem, directeur de
la Recherche à Télécom ParisTech, et ancien
responsable de la chaire.

« L’intelligence artificielle devient une thématique de recherche de plus en


plus présente, qui intéresse directement les entreprises. Le succès des
applications de deep learning, sur des données de type texte ou image,
inspire les chercheurs qui essayent d’adapter et d’étendre les travaux
à d’autres types de données et également d’améliorer les techniques
existantes.

L’Internet des Objets sera probablement dans les prochaines années la


source de données la plus importante. Quand on a des volumes
68 de données de grande ampleur, ce que l’on souhaite c’est
pouvoir réagir et faire des détections d’anomalie à la volée.
C’est un sujet de recherche essentiel sur lequel nous
travaillons : l’apprentissage sur des flux de données.

Avec l'analyse de grands graphes, de nouveaux outils


émergent qui améliorent les capacités de traitements
et d’analyse de données. On utilise des graphes comme
modèles de données pour permettre ou faciliter certaines
analyses. Il s’agit de graphes qui sont inférés à partir de
transactions, d’échanges… Les enjeux sont nombreux, par
exemple sur les graphes probabilistes qui permettent de manipuler
des données associées à des valeurs d'incertitude, et pour lesquels on
cherche à analyser, traiter, extraire de l'information. Se posent également
des problèmes d'échelle, quand il s'agit de trouver ces informations dans
de grands graphes sans tester tous les motifs possibles. Et dans tous
les cas nous visons des qualités de résultat les meilleures possibles et
l’impératif de pouvoir répondre dans des temps raisonnables. 

Prenons l’exemple de graphes inférés à partir de la mobilité des per-


sonnes, dans le cadre d’une application de transport, dans une grande
ville comme Paris. On peut, à partir de données Twitter
ou de réseaux sociaux, voir où les gens
postent des informations. En récupèrant ces
La plupart des
traces-là, on obtient des graphes. On ne les
garde pas sous forme de données brutes, on
problèmes sont
transforme ces données pour coupler ces encore ouverts…
mobilités en trajets, avec des contraintes
comme : le trajet doit être fait dans un cer- d’intérêts –tel monument ayant été visité,
tain laps de temps. Ceci donne des frag- quelle prochaine visite serait intéressante
ments de graphes, en très grand nombre, et à proposer– sont très complexes et très
on essaie d’en sortir des motifs (patterns) étendus, avec des pondérations, des proba-
de mobilité pour dire que le lundi entre 8h bilités… Dans une ville, il y a énormément
et 10h, la population parisienne bouge selon de points d’intérêt. Ces graphes de simila-
tel modèle, etc. Cela donne des informations rité sont construits à partir des profils des
intéressantes pour gérer l’offre de transport historiques de visite des utilisateurs. Traiter
et la multimodalité par exemple.  et extraire de l’information à partir de ces
graphes reste toujours un défi, et cela se
Un autre exemple est celui de la recomman- traduit en termes de recherche. Une com-
dation dans un cadre de réservation touris- pétition s’est établie entre les différentes
tique. On part d’un graphe de similarités, équipes des laboratoires de recherche,
entre les produits qu’on recommande ou chacune essayant de proposer de nouvelles
entre les utilisateurs. Les graphes de points techniques qui améliorent le domaine.»
69

Quelles perspectives pour


la recherche en science des à large échelle, où Spark est en train de
données à moyen et long supplanter Hadoop. La technologie va
terme ? évoluer également autour des techniques
statistiques, on voit l’émergence du deep
Le science des données représente un learning de plus en plus présent dans les
ensemble de défis. Ceux-ci ont été à l’ori- travaux, et de nouvelles techniques de
gine portés par des volumes de données machine learning qui se développent.
importants, auxquels les premières en-
treprises à avoir eu accès étaient les en- Ce qui va changer, c’est que petit à pe-
treprises à l’échelle du Web. Les volumes tit les technologies big data vont être au
de données vont continuer à augmenter service de nouvelles applications comme
et les besoins d’analyse et de traitement on le voit avec l’Internet des objets. Il est
vont perdurer quoiqu’il arrive. maintenant acquis que de nouveaux pro-
blèmes big data ne cessent de se présen-
On peut affirmer que le big data est un ter et qu’il ne s’agit pas d’une mode. Le
ensemble de technologies qui continue développement de ces outils ne va pas
de se développer, comme par exemple s’arrêter et le big data est de plus en plus
dans le cadre du traitement de données au service d’autres challenges. 
Questions de recherche
Repousser les limites du Un autre enjeu, moins connu , est celui des
machine learning données de test, quand elles sont faites de
données simulées, « notamment quand il
Le machine learning est une classe d’al- s’agit de travailler sur des domaines où les
gorithmes dont la capacité à pouvoir ana- données sont classifiées », explique Arnaud
lyser des données sans faire d’hypothèses Cauchy (Airbus Defence & Space, page )
préalables, sans chercher de modèles, a « car elles ne sont pas assez crédibles et les
fait grand bruit ces dernières années, par- systèmes d’intelligence artificielle qui les
fois avec raison, parfois par abus. traitent ne trouvent rien à corréler. Les rela-
tions sémantiques sous-jacentes n’ont pas
Si le « machine learning permet de pro- été bien traduites, et le machine learning ne
poser des services à haute valeur ajoutée sort pas de vrais problèmes. C’est là un vrai
avec un avantage concurrentiel », comme problème théorique. »
le souligne Alain Abramatic, il n’est pas
obligatoirement la panacée, rappelle Visualisation et Interaction
Alexandre Gramfort (Inria Paris-Scalay), homme-machine
« de nombreux problèmes de data peuvent
être résolus avant de faire du machine lear- James Eagan, maître de conférences à
70 ning, avec de la visualisation, en posant les Télécom ParisTech, développe une re-
bonnes questions. » Yoann Janvier (IPSEN) cherche dans le domaine de l’Interaction
confirme que ces outils sont employés Homme-Machine, à l’intersection de la
de manière mesurée : « Le machine lear- visualisation d’information et la program-
ning supervisé n’est pas utilisé pour tous mation par l’utilisateur final. « Cela donne
les projets, car il manque bien souvent des des outils qui peuvent énormément aider
données étiquetées. Le machine learning avec le machine learning. L’union des deux
non supervisé (par exemple le clustering) ne aide l’utilisateur à explorer, comprendre,
donne pas toujours des résultats probants. découvrir, et les data scientists à faire
De plus, l’identification de cas d’usages avec des analyses, construire des modèles qui
du machine learning nécessite bien souvent peuvent avoir un pouvoir explicatif, analy-
un travail approfondi avec des interlocuteurs tique, à l’échelle de ce qu’on ne pouvait pas
métiers qui soient très mûrs sur ces sujets, traiter manuellement avant. » Il identifie
ce qui est encore rare. » La recherche reste trois défis actuels et futurs de la data vi-
donc très active, notamment sur « tout sualisation : développer la visual analytics,
ce qui est statistical machine learning où pour un meilleur mariage de la visuali-
on construit un système prédictif, où les sation et  des outils automatiques ; savoir
exemples doivent prendre du sens», précise inciter les utilisateurs à interagir avec les
Alexandre Gramfort. « Il y a des choses données ; démocratiser la visualisation en
qui restent compliquées à faire, tout ce qui encourageant les personnes à manipu-
relève de l’apprentissage non supervisé no- ler leurs données personnelles et réap-
tamment. » prendre à les interpréter graphiquement.
Data science et cognition Des processus de recherche
Le machine learning s’inspire en partie transformés
des recherches effectuées sur le cerveau
et, dans un mouvement d’enrichissement Autre apport possible des data sciences
circulaire, les avancées en data science dans la recherche, leur nature multidisci-
et en visualisation permettent de mieux plinaire facilite l’ouverture des équipes de
explorer les connaissances issues des recherche vers de nouvelles disciplines.
sciences cognitives. Alexandre Gramfort Maguelonne Chandesris est aujourd’hui
(voir aussi pages - ses contributions responsable de la thématique «  Data,
sur l’outil Scikit-learn) effectue ainsi sa Mobilités et Territoires » chez SNCF Inno-
recherche dans le domaine de la neuro vation & Recherche. Son rôle est de faire
imagerie fonctionnelle, c’est-à-dire la émerger, co-construire et porter la vision
compréhension du cerveau en fonctionne- partagée d’un programme ­ pluri-annuel
ment, grâce notamment au logiciel open- de recherche, organiser et effectuer une
source MNE, spécialisé en traitement du veille dans le domaine et mettre en place
signal des électroencéphalogrammes et des partenariats. Motivée par l’idée que
des magnétoencéphalogrammes. «  Ce « les données permettent d’imaginer les
sont des technologies qui créent beaucoup nouvelles manières de (ne plus) faire »,
de données : 40 minutes de magnéto en- elle a travaillé sur une démarche d’« al-
céphalographie produisent 10 Go de don- gorithmes à dess(e)ins », qui serviraient
nées. Mes travaux de recherche aident les à la fois la représentation graphique des
personnes qui collectent ces données tous données et l’intention donnée à voir. C’est 71
les jours à avoir les meilleurs outils statis- l’intégration d’une designer dans une
tiques, les algorithmes pour les traiter, et équipe auparavant constituée de statisti-
mieux comprendre le cerveau. » ciens qui en a été le déclencheur.

Titulaire d’une bourse « Starting grant » Les données étudiées étaient celles des
par le European Research Council (ERC), vi- requêtes d’itinéraires, venant de l’appli-
sant à récompenser des travaux de jeunes cation et du site Transilien, des données
chercheurs et les encourager à construire moins habituelles par rapport aux don-
leur équipe, le chercheur recrute des data nées de transport effectué. L’équipe de
scientists, sur des expertises allant de Maguelonne Chandesris cherchait à dé-
l’extraction de données au développement finir quelle valeur ces données pouvaient
de nouveaux outils de traitement. « C’est avoir, et comment produire du nouveau
très applicatif. Un des défis est de traiter et s’approprier de manière collective ces
des données actuellement non exploitées données complexes et abstraites. L’adop-
car trop sujettes aux signaux parasites, tion d’une démarche d’innovation par le
qui peuvent venir des capteurs comme du design a offert à l’équipe de data scientists
cerveau lui-même. Les médecins ont éga- effectuant ces travaux, dont les résultats
lement besoin de faire de l’exportation non étaient incertains et qui restaient explora-
supervisée, pour faire de la visualisation, toires, plus de liberté pour aborder le su-
pour faire des systèmes prédictifs, extraire jet et choisir le rendu final. De nouvelles
automatiquement des bio marqueurs…» méthodes de travail ont été adoptées.
Une thèse en machine learning
Claire Vernade est l’une des premières une grande variété de problèmes en ma-
thésardes de la chaire Machine Learning chine learning. En décembre j’ai compris
for Big Data. Qu’est-ce qui a incité cette que ça ne serait pas suffisant, que cela ne


diplômée de Télécom ParisTech à pour- me permettrait pas de rentrer dans le fond
suivre ses études dans le domaine de la des choses. Comme j’avais particulièrement
recherche en machine learning ? aimé le cours d’apprentissage par renforce-
ment, j’ai commencé à me renseigner sur
les possibilités de stages et de thèses dans
« Cela a été en fait un ce domaine. Je n’ai pas eu à chercher long-
hasard total pour temps car justement Stephan Clémençon
moi d’atterrir dans était en train de boucler la Chaire Machine
le domaine du ma- Learning for Big Data et m’a proposé d’être
chine learning. J’ai parmi les premiers doctorants. C’était une
toujours été pas- opportunité à prendre, les planètes s’ali-
sionnée par l’idée que gnaient soudain parfaitement, et je n’ai donc
des décisions complexes pas hésité longtemps.
puissent être éclairées par des algorithmes,
particulièrement quand ces décisions vont
72 impliquer beaucoup de contraintes qui Une voie inconnue
demandent de prendre en compte beau-
coup de variables. J’ai d’abord commencé et un monde incroyable
par étudier la recherche opérationnelle à
­Télécom ParisTech. Il s’agit d’une approche Au moment où j’ai pris cette décision, je
rationnelle de l’aide a la décision. On re- n’avais absolument aucune idée où me mè-
cherche d’abord à modéliser les « règles nerait ce choix de parcours. Je ne savais
du jeu » et ensuite on s’attelle a trouver, si pas trop ce que c’était de faire une thèse,
elle existe, la solution optimale, et ce avec je n’avais pas vraiment envisagé cette op-
le moins d’opérations possibles. Cependant, tion avant le MVA donc je m’engageais dans
lors d’un cours de machine learning en fin une voie un peu inconnue. Et trois ans plus
d’année, j’ai découvert qu’il pouvait aussi y tard, je pense que c’était en effet une excel-
avoir une approche statistique à ces pro- lente décision. J’ai découvert un monde in-
blèmes et cela a été la révélation. croyable, celui de la Recherche académique,
et de son pendant industriel qui tend à se
J’ai rapidement pris la décision de faire le développer dans le domaine du machine
Master MVA (Mathématiques / Vision / Ap- learning. Ce monde est juste fantastique.
prentissage de l’ENS Cachan), une forma- Il est fait de gens qui passent leur vie à se
tion que j’ai adorée car j’y ai appris beaucoup poser des questions souvent très complexes
de choses très vite. Le master commence et non-triviales et à chercher des solutions
fin septembre et les cours se terminent fin à ces problèmes tout en se remettant en
mars, ce qui laisse six mois pour traiter question en permanence. Cela m’apporte
beaucoup personnellement et je suis main- demande chaque jour quels sont les défis
tenant bien plus sereine quant à mon avenir présents et à venir que l’intelligence artifi-
et à ma carrière. Je ne sais pas exactement cielle pourrait résoudre pour faire avancer
sur quels sujets de recherche je travaillerai la médecine, accomplir des tâches pénibles
mais je suis certaine que je continuerai à ou répétitives, et tout simplement pour per-
découvrir de nouveaux problèmes et, je l’es- mettre aux humains de se focaliser sur des
père, de nouvelles solutions. problèmes humains.

Pourquoi le machine learning est-il un


Des défis pour la société
domaine d’avenir ?

Lorsque je suis arrivée en thèse, j’ai eu le Par exemple, le machine learning va pro-
privilège de pouvoir assister à la conférence bablement jouer un rôle important dans la
NeurIPS grâce à la Chaire. Il y avait 2 000 gestion de nos ressources énergétiques.
personnes à Montréal, près du double de Récemment, Google a économisé des mil-
l’année précédente. Deux ans plus tard, nous lions en électricité en laissant un algorithme
étions plus de 6 000 à Barcelone. Le monde contrôler sa consommation. Ce type d’appli-
a pris le chemin de l’intelligence artificielle, cations va se généraliser et donc participer
les gens commencent à faire confiance à diminuer drastiquement le gaspillage de
aux machines et à l’idée que les machines l’énergie. On peut aussi mentionner les ré-
puissent contrôler certaines choses dans centes avancées en prédiction de la struc-
nos vies, ou bien nous orienter. Un exemple ture des protéines, une application qui joue 73
frappant est l’engouement pour les voitures un rôle majeur dans la fabrication de nou-
Tesla. La fonction auto-pilot de ces voitures veaux médicaments.
est particulièrement recherchée par les
clients, et presque tous les constructeurs Quelle est la place d’un chercheur en
maintenant essayent de créer un modèle data science dans notre société ?
équivalent. Cela veut dire que nous, les
chercheurs dans ce domaine, allons devoir Un de nos rôles est de rendre possible ce
être à la hauteur du défi technologique que à quoi la société dans laquelle nous vivons
cela représente, d’être capable de guider aspire. Je pense que les chercheurs sont là
une voiture transportant des personnes pour se poser des questions que personne
dans un milieu très complexe. L’objectif est ne se pose, pour soulever des problèmes et
encore assez loin d’être atteint, malgré les proposer des solutions. Tout le monde devrait
avancées rapides. se poser des questions mais pour accéder à
certaines questions, on doit avoir un bagage
Beaucoup d’autres signes tendent à mon- de compétences techniques qui permette
trer que le machine learning va faire par- d’appréhender la complexité des problèmes
tie de nos vies de plus en plus. J’écris ces en jeu. Le rôle des chercheurs est autant de
lignes à Londres actuellement, depuis les poser des questions pertinentes que de trou-
bureaux de DeepMind, la société-sœur de ver des réponses optimales. Ma courte expé-
Google qui a pour but de « construire l’In- rience m’a montré que c’est en réalité la partie
telligence Artificielle Générale ». Ici, on se la plus compliquée du travail de recherche. »
Les nouveaux paradigmes
scientifiques
Le plus puissant télescope du monde, tifiques deviennent par la suite de plus en
le SKA (Square Kilometre Array), actuel- plus théoriques, utilisant des modèles et
lement en cours de construction, com- faisant appel aux abstractions et à la gé-
mencera à acquérir des données en 2024, néralisation. C’est ainsi qu’apparaissent
avec les technologies big data en cours les lois de la gravitation, celles de l’élec-
de développement. Les astronomes es- tromagnétisme, traduites en formules
timent qu’il collectera l’équivalent de mathématiques. L’arrivée des ordinateurs
35 000 DVDs par seconde, soit l’ensemble au XXe siècle marque une troisième évo-
du web actuel chaque jour ! Cette arrivée lution, celle où la programmation devient
massive de données, dans tous les do- l’outil de travail et d’expression des cher-
maines, change profondément le visage cheurs, qui utilisent les machines pour
de la science. modéliser les phénomènes complexes.

En 2007, Jim Gray, un chercheur en base Exploration de données


de données réputé, propose le nom de spatiales
74 eScience pour désigner une nouvelle mé-
thode scientifique dans laquelle « IT meets Parmi les figures pionnières de la future
scientists 
». Cette proposition entérine data science, deux étudiants ont dans les
le fait qu’il existe des scientifiques qui année 60 ouvert la voie de l‘exploration
ne regardent presque plus directement spatiale grâce à la manipulation de don-
dans leurs instruments (télescopes, mi- nées. On l’a oublié, mais il y a seulement
croscopes, accélérateurs de particules…) 50 ans l’envoi de sondes vers d’autres
de nouveaux éléments. Ils examinent les planètes était jugé impossible, en raison
données capturées par ces instruments d’une simple question d’énergie néces-
et qui n’ont pas encore été étudiées, et saire pour s’affranchir à la fois de l’at-
celles créées par les simulations, toutes traction terrestre et de celle du soleil.
de plus en plus massives. On parle d’ex- Un des fondements mathématiques à
ploration de données, et il s’agit du qua- résoudre était le problème des 3 corps,
trième paradigme scientifique. c’est-à-dire celui des équations du mou-
vement de Newton (deuxième paradigme)
Ce quatrième paradigme se construit sur de corps interagissant gravitationnelle-
la base des trois précédents, et les com- ment, connaissant leurs masses ainsi
plète. La Science s’est développée en ef- que leurs positions et vitesses initiales. Le
fet tout d’abord à partir d’une méthodo- problème à trois corps –celui d’un engin
logie empirique fondée sur l’observation spatial qui part d’un corps céleste pour en
et l’étude des phénomènes observables atteindre un autre– possède une solution
(premier paradigme). Les pratiques scien- analytique exacte, découverte en 1909,
qui se présente sous la forme d’une série sait jamais grâce à qui, et dans quelles
infinie convergeant très lentement, hélas circonstances, ces données vont être à
inutile en pratique pour faire des prédic- l’origine de nouvelles découvertes ou in-
tions en un temps raisonnable. ventions. C’est la sérendipité qui a animé
Gary Flandro, et la transdisciplinarité qui
En 1961, un étudiant en mathématiques, a sans doute été la chance de Michael
stagiaire au Jet Propulsion Lab, Michael Minovitch, lui qui a examiné un vieux pro-
Minovitch, utilise le temps de calcul de blème scientifique d’un œil nouveau.
l’ordinateur le plus rapide de l’époque,
l’IBM 7090, pour résoudre le problème L’arrivée des systèmes d’intelligence arti-
(troisième paradigme). Il approche si ficielle (IA) dans les équipes scientifiques
bien de la solution qu’on l’autorise à uti- est en train de dessiner un nouveau para-
liser des données plus précises sur les digme. En 2015, une équipe australienne
positions des planètes. Son modèle s’en a utilisé une IA pour refaire l’expérience
trouve conforté ; Michael Minovitch a ré- du condensat de Bose-Einstein, un état
solu le problème des 3 corps. particulier de la matière qui a été prédit
en 1925 par Albert Einstein (paradigme
L’histoire ne s’arrête pas là. En 1965, un 2), et réalisée en 1995, valant le prix No-
autre stagiaire d’été, Gary Flandro, s’inté- bel de physique en 2001 à l’équipe. L’IA
resse aux données de son prédécesseur, de 2015 devait s’occuper notamment du
dans l’idée d’explorer les planètes exté- paramétrage des lasers impliqués dans
rieures (quatrième paradigme). Il reporte l’expérience. Moins d’une heure a été 75
les données sur des graphes (visualisa- nécessaire pour refaire l’expérience à
tion de données) sans savoir ce qui l’at- partir des conditions de départ, au grand
tend. Sur un de ces graphes, les lignes étonnement de l’équipe scientifique, d’au-
représentant les positions des planètes tant plus surprise que l’IA avait fait des
externes se recoupent, signifiant qu’une choix techniques auxquels aucun humain
fenêtre de tir existe pour pouvoir les ex- n’avait pensé avant, et qui pourraient ou-
plorer toutes d’un coup. Et la fenêtre de vrir de nouvelles pistes d’investigation.
tir est 1977, permettant de visiter 4 pla-
nètes externes en 12 ans. Or la prochaine Les IA utilisées dans ce 5e paradigme et
fenêtre de ce type est… 176 ans plus tard. les chercheurs en data science peuvent
le programme Voyager venait de naître. donc faire progresser la science en gé-
néral d’au moins trois manières : en ac-
Vers un cinquième paradigme célérant la recherche de conditions expé-
Cette science « data-intensive » consiste rimentales et de protocoles scientifiques
en trois principales activités : l’acquisi- optimaux ; en proposant des méthodes
tion de données (capture), la « curation », auxquelles les humains ne pensent
puis l’analyse. Les données ici traitées pas ;  en lançant les scientifiques sur de
proviennent à la fois des instruments et nouvelles pistes d’exploration, grâce à ces
des simulations. Elles sont mises à dis- nouvelles méthodes et aux idées trouvées
position en open data pour toujours à en cherchant à les comprendre, stimulant
des fins d’analyse continuelle, car on ne ainsi leur créativité.
Data entrepreneur
DATA ENTREPRENEUR

La possibilité d’accéder à des bases de données en open data de


plus en plus nombreuses, et à des capacités de stockage, de calcul
et d’apprentissage machine en ligne à des coûts réduits, est une
véritable aubaine et une opportunité pour créer de nouvelles activités et chercher
à capter la valeur de ces données. Grâce à ces technologies et données facilement
accessibles, il est aujourd’hui possible de lancer des activités innovantes avec une
petite équipe de passionnés, avec un investissement de départ réduit, et d’avoir une
réelle capacité à passer à l’échelle et devenir un acteur international en quelques
années. Les entrepreneurs qui se lancent sur ce territoire défrichent de nouvelles
pratiques et de nouveaux usages au cœur des différentes transitions, numériques
bien sûr, mais également écologiques, énergétiques et sociales…

b+100+80100
ech Busin
se t
ert i es
s
p
Ex

De
é

sign
Curiosit

Explorateurs et défricheurs
spirit

76 1
3
5
d’un nouveau monde
irit
Lea

sp
de

sh
er

k
ac
r

ip
Créativité H

Profils Tous profils.

L’équipe d’une start-up data réunira tous ces types de profil. Les profils business
sont en charge des business plans et business models (positionnement sur le
marché), la stratégie commerciale, la stratégie marketing / communication.
Les profils techniques sont en charge du développement produit et responsables
techniques.

Compétences Savoir-être, dynamisme,


ambition, culture générale,
goût du risque, facultés d’adaptation, imagination
et curiosité
Des start-up de la donnée
ParisTech Entrepreneurs est l’incubateur de Télécom ParisTech. En 20 ans, il a accueilli
plus de 400 start-up innovantes du numérique. Beaucoup d’entre elles utilisent les
technologies de la science des données, comme par exemple, dans l’analyse et le big
data : Invenis, DCbrain, Predictice. Dans la e-publicité et le e-commerce : Adrock-tv,
Botfuel, Askhub, Cleed, Mango ID, Beyable. Dans l’industrie et les transports : Fieldbox,
Safety Line, Wakéo. Dans la santé : Imageen, Dreamquark, Team8. Dans l’innovation et
la hight-tech : Qarnot Computing, 7hughs. Dans la Cybersécurité : Ogo Security, Hiboo…
Zoom sur quatre de ces jeunes pousses prometteuses.

Alphien met le big data au service de la recherche scientifique


et de l’industrie financière. D’une part, la plate-forme offre aux
scientifiques la technologie et les données leur permettant de créer et tester leur recherche
quantitative. D’autre part, les acteurs financiers peuvent organiser des compétitions pour
mettre au défi la communauté scientifique. L’accès à des outils et des données jusqu’ici
réservées à des sociétés de gestion spécialisées est démocratisé, permettant aux
scientifiques de commercialiser le fruit de leur recherche au travers des compétitions.

Innoscape est le spécialiste de la veille concurrentielle en bricolage,


jardin et négoce. Leur plate-forme SaaS fournit aux équipes 77
marketing et commerciales des grandes marques B2C la visibilité
opérationnelle pour optimiser les actions de leur force de vente,
suivre le référencement, promotions, nouveaux produits ou avis
consommateurs. Les algorithmes de machine learning permettent de mettre ensemble et
de donner du sens à de gros volumes d’open data hétérogènes et de sources différentes.

TheContillery est une plate-forme SaaS qui applique les technologies


d’intelligence artificielle aux contenus visuels afin d’augmenter
leur impact marketing. Une palette très large de technologies de traitement de données
(CBIR, NLP, deep learning, machine learning, CNN, GANs…) permet d’obtenir des résultats
spectaculaires en visual intelligence. Son activité couvre la conception, le développement et
la mise en œuvre des chaînes de traitement dédiées à l’image et aux métadonnées associées.

Ubble.ai facilite l’inscription aux services en ligne, tout en luttant contre


l’usurpation d’identité. Son intelligence artificielle analyse un flux vidéo
du document d’identité, en computer vision. Le service doit pouvoir
fonctionner dans un environnement réel, où l’utilisateur est pressé et la
réactivité critique. Pour corser le challenge, il n’existe pas de base de
données de vidéos de documents d’identité : le deep learning ne peut pas être utilisé
directement, ce qui stimule la créativité.

  www.paristech-entrepreneurs.fr
Consultant Data & Analytics
CONSULTANT DATA & ANALYTICS

Les consultants data aident les organisations à définir et mettre


en place leur stratégie data. Ils ont comme interlocuteurs
les opérationnels métiers et font le lien avec l’ensemble des
personnes agissant sur les données, des ingénieurs big data aux
chief data officers. Ils participent à la création de la culture de la
donnée dans les entreprises.

Les data scientists, les data analysts, les ingénieurs big data et les architectes big
data peuvent devenir des consultants, dès lors qu’ils possèdent les qualités de bonne
communication et bon relationnel, les capacités de synthèse et de vulgarisation, et
l’appétence pour la diversité des métiers de leurs clients.

b+100+10080
ech Busin
se t
ert i es
s
p
le lien entre une compréhension
Ex

De
é

sign
Curiosit

métier pointue et la manipulation


spirit

78 1
3
5
technique des données
irit
Lea

sp

et des algorithmes
de

sh
er

c k
r

ip
Créativité Ha

Profil Formation école d’ingénieur ou


de commerce

b+80+6080100
iz Math
taV s
Da
Bd
ry
Sto

Compétences Qualités : créativité, curiosité


ils Viz

C o d er

1
3
5
Savoir raconter ce que les données ont à dire
Out

Connaissance étendue des outils du marché,


Bi

Da ch
L
g

compréhension des enjeux métier ta Ma


D e e pL
Devenir
Desfreelance
données et des humains
linkedin.com/in/denisoblin Denis Oblin
@OblinDenis Principal et Datascientist
chez Ayming


Leur vision très large des écosystèmes de la donnée permet aux
consultants data d’apporter leur assistance et savoir-faire, aussi
bien aux équipes de data scientists établies qu’aux entreprises
n’ayant pas ces compétences en interne. Le quotidien de
Denis Oblin est ainsi très varié : « Animations de comités
de direction, ateliers d’émergence de besoin, découverte
métier, codage… les formes d’intervention auprès de
nos clients (grands comptes, PME, start-up…) traduisent
la diversité des situations qu’ils rencontrent, et ce
qu’ils peuvent attendre des données. » Tour à tour data
scientist puis expert métier, il vise à apporter une réponse
opérationnelle. Il alterne pour cela la discussion avec la

« La data n’est data : « coder, tous les jours, tester de nouvelles approches
techniques », et avec les humains que la donnée concerne :
qu’une matière « tout est dans la compréhension du métier ». L’essentiel, et
la différence, ne se joue en effet pas tant dans les packages
79

première, pas algorithmiques utilisés, que dans la compréhension métier


qui a été insufflée dans la préparation des données
une fin en soi » en amont et lors du dépouillement en aval.

Denis Oblin identifie les problèmes sur lesquels la donnée peut, ou ne peut pas, aider,
puis manipule ces données. « En 3-4 cycles de production agiles de 15 jours à 3 semaines,
le client progresse dans la formulation de son objectif au même rythme que je progresse
dans la réponse. » Certains cherchent de la prédiction, d’autres veulent un diagnostic
opérationnel. En d’autres termes : veut on prédire l’avenir ou le changer ?

Être consultant data permet également de diffuser la culture de la donnée hors des
domaines les plus courants. Denis Oblin cite cette entreprise de location de matériel
professionnel disposant de plusieurs sites de distribution, recevant 15 000 devis par an,
concrétisés aux deux tiers. « En travaillant ces données, nous les avons considérablement
enrichies jusqu’à une centaine de caractéristiques par devis. Nous avons construit un
score, mis en production, qui annonce avec 90% de performance si le devis va être gagné ou
perdu. » Cette entreprise sans site web profite à plein de la transition numérique.
« Il n’y a pas de petite donnée », conclut cet artisan de la donnée, qui continue
à inventer chaque jour son métier avec son équipe.
Piloter un datalab
Quels sont les bons ingrédients pour va- riches résultats, ce qui un leurre. Ce qui
loriser les données de l’entreprise ? Une n’a pas été cadré par le métier le sera né-
première réponse consiste souvent à cessairement par l’équipe data. Personne
s’équiper : réservoir de données, capa- n’en saura rien et personne ne saura sug-
cité de calcul, compétences data… Cette gérer l’inflexion nécessaire.
approche est rassurante mais la créa-
tion d’un centre de coût n’est pas la pre- Ces inflexions portées à chaque sprint
mière étape obligatoire. Quels que soient sont même une vraie mesure de l’avan-
les choix d’organisation, ce qui importe cement du projet. Un cadrage qui n’évolue
en définitive est la gestion de projet. Le pas est le symptôme d’un projet qui ne va
plus souvent, les équipes suivent une dé- nulle part.
marche « agile » avec les rituels associés :
sprint, daily meeting, sprint review… Plus Structurer les sprint reviews
important encore, il faut veiller à articu- Lors de ce temps d’échanges, les équipes
ler concrètement le dialogue entre métier data apportent deux informations essen-
(celui qui a un besoin, une question) et tielles. Tout d’abord, qu’est-ce qui a été
équipes data (ceux qui vont tenter d’ap- appris (et ce, dès le premier sprint) que
porter une réponse). En effet, un projet le métier ne savait pas encore ? C’est
80 data ne se réduit pas à une simple suc- exigeant mais essentiel pour accrocher
cession de fonctionnalités à développer. l’intérêt du demandeur et pour l’aider à
Quelques bonnes pratiques s’imposent, infléchir le projet dans la bonne direction.
au-delà de la mécanique agile. Deuxièmement, quel « potentiel » est en-
core disponible ?
Formaliser très précisément
la question posée Deux axes qualitatifs permettent de l’ex-
primer simplement  : la proportion des
Dans une démarche de valorisation de données intégrées à ce stade ; la puis-
données, le plus difficile n’est pas de sance algorithmique déployée. Une ca-
trouver une réponse (qui va résilier, qui tégorisation avec des + et des - suffit : le
va cliquer sur la publicité, quelle machine métier n’a pas à devenir expert data.
va tomber en panne…) mais de poser une
question précise, comme par exemple : Animer le plateau data 
identifier les risques de résiliation des Les rituels agiles sont très courts : il faut
clients les plus rentables dans un délai de susciter plus de contacts et de retours.
2 mois, identifier un type précis de panne L’exposition de visuels qui incitent les mé-
matérielle un certain délai avant qu’elle tiers à venir voir ce qui se passe dans le
ne se produise. Nombre de projets, qui datalab, à tester des idées, à questionner
ne prennent pas la peine de formaliser ce des observations, est très utile. La « gami-
niveau de détail, reposent sur l’idée que fication » peut également être un bon outil
les questions ouvertes vont être source de pour susciter les réactions.
La cybersécurité étend ses ailes
Si la sécurité des systèmes d’informations par et sur des objets matériels (physical
et des données qui y sont entreposées et security). S’il peut s’agir également d’un
traitées doit être une préoccupation per- domaine déjà connu, l’accélération du dé-
manente des data scientists, la cybersé- ploiement des objets connectés, de plus en
curité est une notion bien plus large et plus bardés d’IA (noter que IoT signifie pour
transversale à prendre en compte. beaucoup à présent Intelligence of Things),
des voitures connectées aux assistants
La cybersécurité est habituellement dé- vocaux, multiplie les risques du quotidien.
finie comme l’ensemble des techniques, Enfin, le troisième domaine de menaces
technologies, mécanismes, outils, mais est plus récent et se développe de manière
également bonnes pratiques, actions, préoccupante : ce sont les menaces sur la
lois, politiques, et bien sûr risques, société et le vivre-ensemble (political se-
concernant la protection des personnes curity), notamment par la diffusion de fake
et des actifs numériques, matériels ou news, la fabrication de fausses vidéos, la
non, des organisations et des États. création de réalités altérées.

Le développement tous azimuts des sys- Les menaces actuelles vont continuer à
tèmes d’intelligence artificielle a fait évo- s’étendre, car les humains malveillants
luer son objet et son périmètre. utiliseront des IA pour améliorer leurs 81
techniques et pour répandre leurs actions.
Faire face aux nouvelles menaces L’intermédiation rendue possible par les IA
Dans un rapport publié en février 2018, va également abaisser la barrière psycho-
intitulé “The Malicious Use of Artificial In- logique à « faire le mal », et leur accès fa-
telligence: Forecasting, Prevention, and cile sans connaissances techniques pourra
Mitigation”, 26 spécialistes anglo-saxons amener des non-experts à devenir des cy-
des questions liées aux IA, à la robotique bercriminels. Des pratiques comme la pu-
et à la cybersécurité, ont détaillé les trois blication très rapide et en sources ouvertes
domaines de menaces dans lesquels les des avancées scientifiques en matière d’IA
IA présentent un impact grandissant. Les pourrait poser des problèmes, comme
experts estiment que nous sommes dans cela a déjà été le cas avec les techniques
une période de cinq années a priori où les de forgeage de vidéos dites deepfakes. Les
stratégies de défense contre les utilisa- rédacteurs du rapport soulignaient que les
tions malveillantes des IA resteront les échanges entre experts cybersécurité et
plus fortes, et illustrent leur recherche de experts IA étaient encore beaucoup trop
nombreux exemples réels ou plausibles. faibles. Ils recommandaient que la réponse
à ces menaces soient simultanément tech-
Le premier ensemble de menaces est clas- nologique et politique (éducation, régula-
sique : il s’agit de celles effectuées par et tion, législation). Les compétences trans-
sur des ressources numériques (digital se- disciplinaires des data scientists seront ici
curity). Le deuxième recouvre les menaces très précieuses.
Data journalist
DATA JOURNALIST

Les data journalists sont des journalistes qui collectent, nettoient,


vérifient, croisent, classent et analysent des données massives
pour y trouver des informations nouvelles ou pour les présenter
à leur lectorat de manière compréhensible, accessible et interactive. Ils ne rédigent
pas nécessairement d’articles, mais proposent une visualisation de l’information avec
les mêmes outils graphiques que les experts en data visualisation. Ils travaillent le
plus souvent avec les développeurs web et graphistes de leur média, se concentrant
sur la mise en lumière des faits et la mise en scène des histoires qu’ils doivent
conter. À l’heure où les informations erronées et les réalités altérées sont de plus
en plus présentes et difficiles à détecter, leur rôle social et leur souci quotidien de la
pédagogie deviennent une pierre angulaire des rédactions.

b+60+8010060
ech Busin
se t
ert i es
s
p
Ex

De
é

sign
Curiosit

Un journalisme d’enquête
spirit

82 1
3
5
sur le terrain des données
irit
Lea

sp
de

sh
er

k
ac
r

ip
Créativité H

Profil École de journalisme

b+60+608020100
iz Math
taV s
Da
Bd
ry
Sto

Compétences Curiosité, rigueur,


ils Viz

grande culture générale,


C o d er

1
3
5
communication, compétences graphiques,
Out

appétence pour travailler avec d’autres


journalistes et d’autres supports média
Bi

Da ch
L
g

ta Ma
D e e pL
Un journalisme qui redonne du sens
« Qui est le prince mouillé de Bel Air ? » La ment été utilisée par la presse, le « jour-
question est posée fin 2015 en Californie, nalisme de données  », poussé par le
après la découverte dans les données double mouvement de l’abondance de
publiques du département de l’eau et de données et d’information devenues inex-
l’énergie de Los Angeles qu’une personne tricables, et de la défiance grandissante
résidant dans le quartier chic de Bel Air dans les médias traditionnels, a subi un
avait consommé près de 45 millions de développement important il y a une di-
litres d’eau en un an, dans une région zaine d’année, au point que la plupart des
souffrant de fortes sécheresses, et en rédactions aujourd’hui disposent de leurs
pleine restriction de consommation d’eau. data journalistes. Ceux-ci ont pour mis-
Le fournisseur d’eau ne souhaitant pas sion de plonger dans de larges bases de
donner le nom de ce grand consomma- données pour y collecter, nettoyer, véri-
teur, des citoyens engagés dans la chasse fier, trier, analyser et croiser les données,
aux gaspilleurs rendent publique l’affaire, puis visualiser et scénariser ce que ces
et un journaliste commence son enquête données ont à raconter. De plus en plus
dans le LA Times. se spécialisent dans le fact-checking, qui
consiste à contrôler la véracité des pro-
Confronté à l’impossibilité de faire le tour pos ou des chiffres avancés par tel ou tel,
de ce quartier huppé, et au refus de divul- tandis que d’autres explorent ces masses 83
gation des noms, il va se tourner vers les de données comme un terrain d’enquête
données accessibles publiquement et les d’un nouveau genre. Tous sont animés par
faire parler. En utilisant des images satel- le souci de la donnée proprement utilisée
lites publiques et des techniques d’ima- pour expliquer la complexité du monde.
gerie spécialisées en reconnaissance
des végétaux – car tous ne consomment Leurs compétences sont celles des data
pas l’eau de la même manière, comme scientists classiques, et leurs outils et
il l’apprendra dans une base de données méthodes, très largement publics, ont fait
scientifiques –, et en croisant le tout avec l’objet de formations ouvertes en ligne qui
les cartographies publiques – bâtiments, sont un premier pas accessible et ludique
adresses… – de manière à relier les par- pour de futurs explorateurs de la don-
celles à leur propriétaire, le journaliste va née. Leur expertise du storytelling et de la
réussir à cerner sept noms potentiels. Il mise en visualisation des informations en
publiera fin 2016 sa méthode, ses sources font également une source d’inspiration
et ses astuces. précieuse pour des data scientists ayant
des données compliquées à mettre en
Renouveler la manière de musique. Les data journalistes, comme
faire du journalisme certains artistes qui créent des œuvres à
partir de données, sont des data scientists
Si l’utilisation de données statistiques spécialisés. Peut-être les premiers d’une
pour appuyer une enquête a régulière- liste de nouveaux métiers à inventer.
Naviguer en données complexes
Si expliquer la complexité du monde et traders ou celui des pilotes de chasse est
redonner du sens aux faits est le quotidien à ce titre symptomatique. La navigation
des data journalistes, découvrir des dans leur environnement de données se
corrélations utiles dans de grands corpus fait la plupart du temps à vue d'aigle, et
de données oblige bien souvent les data arrivent des moments de vérité où il est
scientists à jouer un rôle d'enquêteurs. nécessaire de leur apporter la bonne in-
En attirant leur attention sur telle ou formation, correctement packagée, en
telle donnée et en les étiquetant de provenance directe des données mas-
meta-informations, la combinaison de sives. Il faut alors disposer d'interfaces
systèmes d'intelligence artificielle et beaucoup plus fluides et légères que le
de réalité virtuelle et augmentée leur classique clavier / souris. Ces nouvelles
facilite la tâche. Ces systèmes allègent la interfaces utilisent par exemple le eye
charge cognitive nécessaire pour évoluer tracking pour repérer l'intérêt soudain de
dans des ensembles de données à la l'utilisateur sur une partie du champ d'in-
structure difficile à appréhender, ou pour formations et en améliorer subtilement
naviguer simultanément dans des flux sa compréhension, ou encore les agents
d’informations de différentes natures. conversationnels pour ne pas mobili-
ser les yeux. Les data scientists doivent
84 C'est particulièrement vrai en situation concevoir ces interfaces modernes qui
de stress. Pour Emmanuel Bavière chez augmentent les sens et aident le cerveau
Société Générale (voir page ), le cas des à naviguer dans la donnée complexe.

Système autonome de commande, de


contrôle, de communication et de gestion
de mission, Fightacs est un système
d'information flexible conçu par Airbus pour
les pilotes d'hélicoptères et de chasseurs.
Connecté aux radios embarquées et aux
systèmes de navigation de l'aéronef hôte,
il permet à ses utilisateurs l’accès à des
données complexes comme la carte de
navigation 3D, les menaces électroniques
et la situation tactique. Il a été conçu pour
transformer à faible coût n'importe quel
avion ou hélicoptère d'ancienne génération
en une plate-forme adaptée à l'exécution
des missions modernes.
Faire voler les data
Opérant dans des domaines sensibles pour une
Un groupe de 130 000 grande variété de clients, eux-mêmes s'adressant
salariés organisé en trois à une multitude de clients, Airbus est une
divisions : Commercial entreprise de taille mondiale confrontée à des
Aircraft, Helicopters, disruptions majeures sur son volume d'affaires
Defence and Space. principal. Du terabyte de données enregistrées par
vol d'A350 à l'indexation des images satellites en
Il y a 23 000 capteurs temps réel, de la complexité d'un avion lors de sa
dans un A320 conception, puis de son exploitation, à l'évolution
des besoins et usages de ses passagers, la donnée
est au cœur de la transition numérique d'Airbus.


Il n'est dès lors pas étonnant de retrouver dans
les équipes de data scientists des personnes
également impliquées dans la transformation
digitale de l'entreprise.

Arnaud Cauchy est l'un d'entre eux. ­Digital


transformation officer depuis 2015,
« Les données travaillant sur des projets à l'échelle du 85
groupe, il devient responsable en 2017
au cœur de la d'un département Digital Transformation
Support, dans lequel lui et sa petite équipe
transformation agile de data scientists de niveau international

digitale de imaginent des services nouveaux, associés à de nouveaux


modèles d'affaire, qui puissent se réaliser effectivement.
l'entreprise » Comme partout en effet, vendre des produits seuls ne
suffit plus : il faut leur adjoindre des services. Bardé de
capteurs, le produit devient smart product auquel sont
attachés des smart services.

Deux cas sont envisagés. Le premier consiste, à partir d'un produit existant, à y collecter
des données opérationnelles et à prolonger son cycle de vie . C'est l'exemple de la
maintenance prédictive, qui évite les pannes soudaines non anticipées. Appliquée aux
satellites, les données télémétriques analysées permettent ainsi de détecter des signes
de faiblesse, les pallier, et assurer la continuité de mission. Le deuxième cas est celui où
le modèle économique ne fonctionne plus et où le produit est en train de disparaître. Il est
alors remplacé par du service dématérialisé, par une offre naissante. Avec l'accord des
clients, des données anonymisées sont collectées. Riches de situations très différentes et
croisées avec des données externes, elles permettent aux data scientists d'imaginer de
nouveaux services, dont certains correspondront parfois à de nouveaux clients.

Matt Evans est Digital Transformation Lea- a ainsi déployé sur les lignes d'assem-
der au sein du groupe Airbus. Il y dirige blage des A350 (49 avions livrés en 2016)
le développement et la mise en œuvre un projet dont il est particulièrement fier.
d'une stratégie de données complète pour Sur un tel avion où tous les pro-
l'ensemble du groupe, comprenant blèmes de conception n'ont
l'intégration de données et les plate- jamais été vus auparavant,
formes, les technologies et compé- la recherche rapide de so-
@DrMattEvans

tences analytiques, la gestion des lutions, dans un contexte


données et leur gouvernance, ainsi de haute qualité, est un
que l'interaction avec les clients et les souci constant. Partant
fournisseurs pour leur assurer l'accès de l'idée que « certes tel pro-
aux données. blème est nouveau, mais des choses
comparables ont peut-être eu lieu un jour
La majorité de sa journée consiste à ren- ailleurs », l'équipe de data scientists a
contrer les personnes du terrain (proces- créé une interface utilisateur facile d'em-
sus, fabrication, assistance & services…) ploi, permettant de faire des associations
pour comprendre leurs métiers, leurs d'idées entre problèmes – certains étant
objectifs, et pouvoir identifier les liens parfois décrits sur 40 pages, à croiser
entre les données et ces objectifs. « Il faut avec des données structurées des bases
avoir la capacité de coder, de créer des vi- des fabricants –, de fournir des recom-
sualisations, pour guider le client final via mandations et de proposer des avis. Cette
86 un produit minimum viable », précise-t-il, application qui a littéralement élargi la vi-
l'industrialisation du projet arrivant dans sion des superviseurs (5 ou 6 personnes
un deuxième temps. Avec son équipe de sous leur responsabilité) a été plebiscitée,
25 data scientists, ce Chief Data Officer et est utilisée par plus de 1 000 personnes.

Donnée géospatiale enrichie peuvent recevoir plus que des images


À travers Data Management Solutions, avant / après, et disposer de cartes des
Airbus Defence and Space propose une dommages et d'une estimation des coûts.
gamme de produits et de services qui per- Dans les pays ne faisant pas de recense-
met à ses clients d'accéder facilement, ment, des modèles urbains et des mo-
de gérer et de diffuser différents types de dèles culturels permettent de prédire le
données géospatiales. nombre de personnes par toit.

En croisant des images satellitaires de Tous ces acteurs n'ont pas besoin d'être
Spot ou Pléiades avec des données ex- des spécialistes du pixels. Ils veulent des
ternes comme les prévisions météoro- services d'aide à la décision, et la pro-
logiques, l'analyse biochimique de sols duction de données enrichies les leur
et des données sur les pesticides, il est apporte. Les data scientists férus de car-
possible de conseiller les agriculteurs qui tographie et de croisements de données
souhaitent utiliser ces derniers avec par- originaux trouvent chez Airbus Defence
cimonie. Les assureurs en cas de tempête and Space de quoi nourrir leurs passions.
Données externes mobilisées vices à forte valeur ajoutée, ainsi que les
Même avec près de 10 000 aéronefs civils outils nécessaires à leur développement
Airbus volant dans le monde, le volume de (API ouvertes, services de cloud com-
données qui en provient ne suffit pas pour puting). Il s'agit de véritables systèmes
créer le dossier de toute la vie d'un avion. d'exploitation de la donnée – enrichie en
Ces données doivent être croisées avec amont, indexée en temps réel à la sortie
les données opérationnelles et de main- des gros flux satellitaires – fournissant
tenance, et celles issues des usages des de l'information élaborée. Dans ce cadre,
compagnies aériennes. Cette meilleure les infrastructures cloud telles celles de
connaissance de l'utilisation des avions Google ou Amazon sont vite devenues in-
facilite la création des modèles de main- contournables. Les data scientists doivent
tenance prédictive et est partagée avec les savoir maîtriser les outils très spécifiques
compagnies. Concernant l'amélioration du cloud, ainsi que les outils du machine
de l'expérience des passagers, l'anonymi- learning tels TensorFlow ou Caffe. La
sation des données personnelles collec- puissance de calcul de ces infrastruc-
tées est faite avec une grande vigilance. tures facilite notamment des techniques
de « croissance d'algorithmes », pour les-
Savoir maîtriser le cloud quels divers paramétrages peuvent être
Anne Chanié, responsable offres futurs testés dans des temps raisonnables, et
segments sol d'observation – nouvelles des solutions converger en quelques
technologies chez Airbus Defence and heures. Il s'agit également de stocker la
Space, participe à l’élaboration de solu- donnée de manière à en optimiser l'accès, 87
tions de SI Big Data faisant venir les uti- et de concevoir des solutions techniques
lisateurs à la donnée, en leur fournissant et algorithmiques qui soient capables de
une plate-forme où sont proposés des ser- passer à l'échelle.

Les problèmes mathématiques posés la somme de toutes les énergies et des


par la recherche de corrélations dans compétences des divers métiers de la
les données provenant des avions restent datascience. Et travailler dans le pay-
nombreux. Airbus collabore avec des uni- sage des données d'Airbus ne signifie pas
versités et des start-up qui proposent de n'être que mathématicien. Les data scien-
nouvelles manières d'analyser les don- tists ici doivent avoir l'envie de croiser des
nées, élaborent des algorithmes efficaces technologies avec des sources ouvertes
et créent des outils de visualisation adap- qui peuvent être assez éloignées, et se de-
tés aux besoins des data scientists. mander, avec un état d'esprit geek, ce que
cette combinaison de données internes
Au sein de l'IRT Saint Exupéry, à travers et externes jamais faite encore pourrait
l'accélérateur Airbus BizLab, lors de bien produire. Jeunes recrutés, plus an-
hackathons, les occasions sont multiples ciens en reconversion interne, start-up et
de croiser des talents externes avec ceux chercheurs, toutes et tous reflètent bien
d'Airbus, sur des problèmes toujours pas- la multitude de parcours et d'aptitudes
sionnants et complexes qui nécessitent possibles pour être data scientist.
Paroles de data scientists
Un secteur en tension Je travaille par exemple sur des problé-
« Recommandations algorithmiques, matiques d’analyse de données de préfé-
prévisions commerciales, trading algo- rence – celles que nous exprimons à tra-
rithmique, détection d’anomalie, traite- vers une poignée de films ou sur quelques
ment du langage naturel… appliquez des objets d’un catalogue considérable propo-
modèles d’apprentissage machine sur sant des millions de produits – qui s’ex-
des projets du monde réel !  », le recru- prime avec des types d’objets mathéma-
tement de data scientists prend de plus tiques tout à fait nouveaux, alors que ce
en plus des airs de mobilisation géné- problème est ancien. Dans les travaux que
rale, tant la demande augmente. C’est j’ai développés avec mes étudiants et mes
ce que constate Talel Abdessalem : « Le collègues, nous avons besoin de topologie
big data s’installe comme une thématique algébrique et de domaines qui n’étaient
importante pour les entreprises et pour pas traditionnellement évoqués dans le
les laboratoires de recherche. Il y a aussi machine learning. À quelqu’un voulant
un besoin d’expertise, le marché des data faire de la recherche, je conseillerai égale-
scientists ne se tarit pas, on l’observe par ment d’apprendre l’informatique pour être
le nombre d’inscriptions à nos formations. capable de se confronter aux contraintes
La demande des personnes à se former des applications modernes. »
sur le big data et la data science a explosé
88 et continue d’augmenter, et la demande de « Il faut absolument un background ma-
recrutement par les entreprises augmente thématique », renchérit la directrice data
dans le même temps. Et les changements science Angélique Bidault-Verliac chez
fréquents de postes, le turn over, est un OUI.sncf. Ons Jelassi invite ainsi les data
indicateur du manque de data scientists scientists postulants à « vérifier leur ap-
sur le marché. » pétence pour les aspects purement ma-
thématiques, et leur intérêt pour l’infor-
Une discipline en mouvement matique distribuée, car il faut être à l’aise
Quels conseils Stephan Clémençon don- sur les deux. » Le Chief Data Officer d’un
nerait-il à quelqu’un souhaitant s’enga- groupe international demande à ses
ger dans un cursus de data science ? data scientists « de faire des modèles in-
« Tout dépend s’il a envie de faire de la re- dustrialisables, qui passent à l’échelle, et
cherche ou de traiter rapidement des ap- d’être opérationnel. ». Et pour quelqu’un
plications. Pour la recherche, je suggère voulant être plus opérationnel, Stephan
d’avoir un socle de connaissances fonda- Clémençon suggérera « de ne pas non
mentales le plus large possible plutôt que plus négliger les enseignements théo-
de se spécialiser trop vite. Le domaine riques qui lui permettront de continuer
bouge énormément et a besoin d’idées à progresser. La discipline est en mou-
nouvelles. Il faut des connaissances très vement. Je lui conseillerai d’être l’incar-
générales pour pouvoir ensuite traiter des nation de cette interdisciplinarité entre
problèmes spécifiques, mais de façon en- informatique, mathématiques appliquées
tièrement nouvelle. et usage. »
Prouver ses compétences clients, internes ou externes, se vérifie
Les recrutements réguliers de data dans les entreprises, qui sont de plus en
scientists impliquent les équipes déjà plus nombreuses à intégrer leurs data
en place. Que ce soit pour valider leur scientists directement auprès des opé-
technicité ou pour trouver les bonnes rationnels.
personnalités capables d’interagir avec
les métiers, elles challengent les postu- Anne Chanié, Airbus Defence and Space,
lants. Chez Toucan Toco, le test & learn prolonge cette nécessaire proximité du
fait partie des valeurs et des critères terrain par celle de la donnée traitée :
de recrutement chez les développeurs. « Dans mon domaine, la connaissance et
« Nous testons l’ensemble de notre code la compréhension de la donnée sont es-
et avons des environnements sandbox sentielles. On ne met pas des données
dans lesquels nous essayons nos nou- dans un pot en attendant que l’information
velles offres », explique Charles Miglietti. sorte toute seule. L’expertise de la donnée
« Il est important de pouvoir prouver ses initiale est une compétence à avoir si l’on
compétences techniques lors d’exer- veut en être un bon interprète. »
cices. » Consultant data, Denis Oblin
conseille de «  continuer à suivre des Montrer sa motivation
MOOC et fréquenter des meet-ups. » Il Comment convaincre un recruteur  de
faut également fréquenter des plate- ses compétences et de sa motivation ? 89
formes comme Kaggle, où des entre- Kim Pellegrin, Dassault Systèmes : « Le
prises proposent des problèmes et ré- meilleur moyen est de présenter des réa-
compensent les data scientists ayant lisations probantes, les mettre à disposi-
obtenu les meilleures performances. tion sur un dépôt Git par exemple. Réviser
avant l’entretien le code et les réalisations
Aimer être sur le terrain qu’on souhaite présenter de façon à ne pas
Denis Oblin a la possibilité de voir de redécouvrir le sujet face au recruteur et
nombreux cas d’usages dans des sec- avoir une présentation fluide. Faire un tra-
teurs d’activité très différents. « Il est vail continu de veille technologique pour
très important de savoir raconter des se tenir au courant des avancées. »
choses qui parleront aux gens du métier.
On trouve parfois des résultats non atten- «Dans son CV, il faut faire preuve d’humili-
dus ou non demandés par le client. C’est té et de curiosité, ne pas empiler les réfé-
parce qu’on a partagé avec tous les opé- rences aux technologies, ne pas survendre
rationnels, été à côté d’eux, multiplié les et être capable de mettre en œuvre pen-
interactions, affiché le maximum de data dant l’entretien les compétences annon-
visualisation pour permettre des com- cées », poursuit Yoann Janvier, IPSEN.
mentaires spontanés, et été sur place, là « Je fais systématiquement passer des
où la donnée est produite. » Ce constat, tests techniques pour m’assurer que les
à savoir qu’il est essentiel d’installer le compétences sont au rendez-vous et il y a
data scientist en immersion chez ses pas mal de surprises ! »
Faire son CV de data scientist
FICHES PRATIQUES

Comme dans tout CV, il est essentiel de nuellement se former, et c’est valable éga-
faire prendre connaissance d’un par- lement pour les plus jeunes. Les projets
cours académique et professionnel en développés en marge de sa formation et
un seul coup d’œil, et de laisser une de son emploi seront très appréciés, ainsi


bonne impression parfois en quelques que la participation à des hackathons, à
secondes. Toutes les sections et infor- des compétitions de type Kaggle. »
mations doivent être immédiatement
identifiables. Maïté Allain, consul- Quatre types de CV de data scientists
tante en recrutement et responsable passent devant les yeux de la recru-
d’Upward Data  : « Nous préférons teuse, chacun avec leurs spé-
les CV simples et classiques, en cificités. Les CV des jeunes
une page, avec pour chaque expé- data scientists, ceux qui
rience – datée – mise en avant, une ont une forte connaissance
description rapide de l’entreprise métier et souhaitent se ré-
(titre de la fonction exercée, nom orienter, ceux qui ont utilisé
de l’entité à l’intérieur de l’entreprise, ou développé des algorithmes
domaine d’activité), les problématiques et souhaitent également s’orienter
data qui ont été rencontrées, les outils vers les métiers de la données, et les
90 et les méthodes qui ont été utilisées, et architectes big data qui sont souvent à
les résultats obtenus. Des données chif- part. Ces derniers fournissent en effet
frées et des termes techniques, tant qu’ils des CV plus longs, avec une page de
restent compréhensibles par le recruteur, synthèse, puis plusieurs pages pouvant
peuvent être appréciés. développer leurs expériences.

Dans la catégorie des compétences, « Les CV doivent rester classiques et


mettre, de manière classique, les connais- complets, car nous n’avons pas le temps
sances techniques en rapport avec le do- d’aller voir les blogs des candidats, par
maine d’activité, les connaissances infor- exemple. En revanche, ces derniers
matiques, et les niveaux dans les langues peuvent être mentionnés, c’est toujours
pratiquées, justifiés éventuellement par un plus. Et pour les experts en data vi-
des certifications ou des séjours à l’étran- sualisation, le CV peut servir de support
ger. La catégorie formation regroupe les pour en démontrer la maîtrise. » Dernier
cursus suivis et les diplômes obtenus point, le CV sur Linkedin, sur lequel on
pendant et après la formation initiale, no- peut détailler ses expériences. « En plus
tamment les certificats obtenus à la suite des expériences, leur durée, la maîtrise
d’un MOOC, ou sur une technologie parti- des outils, il permet de mettre en avant
culière, et les formations certifiantes. les compétences recommandées par les
autres. C’est également l’occasion de ren-
La science des données étant fortement contrer d’autres data scientists, d’échan-
évolutive, les data scientists doivent conti- ger dans des forums, et de faire sa veille. »
Se réorienter vers la donnée

FICHES PRATIQUES
Pour Matt Evans, groupe Airbus, la re- jourd’hui encore très importante auprès
conversion est un vrai sujet. « De nom- des étudiants et des entreprises. Quand je
breuses personnes sont désireuses de se regarde un dossier de candidature avec les
reconvertir dans les métiers de la donnée. MOOC machine learning ou massive data
Or la formation essentielle reste tout de mining de Stanford, cela me parle et cela
même les mathématiques et les statis- veut dire que la personne s’est intéressée
tiques. Et faire ce choix de reconversion au sujet et l’a creusé. Mais par rapport à
induit un vrai changement de métier. Ces tout ce qui est pratique et professionnali-
personnes, même celles en début de leur sant, la formation en présentiel est un plus
carrière vers 35 ans, doivent bien peser dans une procédure d’embauche. »
tous les tenants et les aboutissants. » C’est
là que réside tout l’intérêt de suivre un En donnant sa définition du data scien-
Certificat d’études spécialisées (CES) – et tist, Pierre Gotelaere d’Enedis veut faire
de préparer celui-ci en participant à un vibrer celles et ceux qui s’apprêtent à re-
MOOC – qui permettra à chacun de faire joindre le monde des données en cours
le bilan de ses connaissances et de s’as- de carrière, et qui disposent d’une ma-
surer qu’il mesure bien le chemin à par- turité plus grande : « Les compétences
courir pour devenir data scientist. mathématiques et statistiques restent
bien sûr primordiales. Cependant, le data 91
Ons Jelassi observe que les profils des scientist doit avoir selon moi quatre cordes
personnes voulant suivre le CES « Data supplémentaires à son arc. D’abord, il
Scientist » de Télécom ParisTech sont lui faut avoir une capacité à vulgariser et
de plus en plus solides : « Parmi les communiquer pour emporter l’adhésion
dossiers que je reçois, les étudiants ont autour de ses travaux ; puis une sensibili-
déjà fait des formations par e-learning té business (recherche de valeur), car ces
avant de venir nous voir, ils se forment à profils sont coûteux pour l’entreprise ; un
la programmation Python par eux-même, vernis système d’information pour facili-
et viennent tout de même candidater. Ils ter le lien avec les équipes IT en charge de
ont l’habitude d’utiliser les outils d’ap- l’industrialisation des travaux d’études ; et
prentissage de type MOOC... Le label CES enfin, savoir travailler en mode projet pour
est cependant très utile pour légitimer les avancer avec différents interlocuteurs
connaissances. La certification est au- dans le cadre d’un projet industriel.»

Les fiches pratiques et les fiches métiers de ce guide ont


été rédigées en partenariat avec Upward Data, cabinet
de recrutement spécialisé dans les métiers de la data DATA

science et du big data. Résolument pro-candidats, Updward Data accompagne les


postulants sur le long terme, sur un marché en constante évolution, les guidant vers
des entreprises vers lesquelles ils n’avaient pas nécessairement pensé se tourner,
et aidant ces dernières à dénicher des profils encore rares.
Grand groupe ou start-up ?
FICHES PRATIQUES

« Les innovations vont se multiplier dans souvent ­ ultra-polyvalent. En arrivant au


les années qui viennent, notamment par le tout début de l’aventure, on intervient vite
biais des start-up », observe déjà Yoann sur les décisions stratégiques de l’entre-
Janvier dans le domaine de la health prise. » Et il existe des secteurs, comme
tech. «  Bon nombre d’entreprises vont par exemple les RH, où beaucoup reste
s’appuyer sur ces start-up pour accélérer à inventer avec la donnée, que ce soit
leurs innovations et cela va contribuer à dans les start-up ou dans les entre-
faire davantage évoluer le métier de data prises établies.
scientist. » Alors, où débuter sa carrière,
dans un grand groupe qui offrira des Des échanges réguliers
perspectives d’évolution ou dans une « Comme les applications et les projets de
start-up réputée plus agile ? data science sont de plus en plus portés
par des start-up, les entreprises main-
Pour Maïté Allain, Upward Data, « les tiennent une veille très active sur ce qui
avantages du grand groupe seront le nom est peut être développé à l’extérieur », re-
sur son CV, l’apprentissage du monde de marque Yoann Janvier. Les échanges, et
l’entreprise – organisation, services, mé- les passerelles, sont continus entre les
tiers – et de ses codes, une très bonne deux types d’organisation, pour le plus
92 sécurité de l’emploi couplée à des avan- grand intérêt des data scientists qui, par
tages salariaux et sociaux généralement nature, aiment les parcours hybrides.
plus intéressants que dans les start-up.»
Attention à bien identifier au préalable La chaire Big Data & Market Insights a
le niveau de maturité vis-à-vis des don- organisé en octobre 2016 une journée
nées, certains services en interne pou- consacrée à la place des start-up dans la
vant être encore réticents à ouvrir leurs stratégie big data des entreprises. Talel
données. Certaines entreprises de taille Abdessalem y a noté que « beaucoup
respectable ont cependant gardé, ou ac- d’entreprises étaient plus intéressées par
quis, un esprit start-up. « Ce sont des pé- les personnes qui travaillent dans une
pites que tout le monde cherche car elles start-up que par leur modèle économique.
allient sécurité de l’emploi et agilité. » Les La start-up agit comme un catalyseur de
start-up réelles, celles qui cherchent personnes hyper dynamiques et efficaces,
encore leur modèle économique, ap- qui veulent vraiment produire des choses.
portent des défis d’un autre ordre. « Re- Ce sont des éléments essentiels pour les
joindre ce type de start-up à effectifs ré- grandes entreprises, qui recherchent des
duits, c’est participer à une vraie aventure compétences. Les start-up sont aussi
entrepreneuriale avec tous les risques que des laboratoires démontrant qu’une telle
cela comprend. Il ne faut pas avoir d’aver- technologie est possible. Passer sous une
sion au risque. Les data scientists sont grande entreprise, c’est l’industrialisa-
très vite responsabilisés et doivent être tion. » Une trajectoire de plus à prendre
très autonomes et accepter un rôle très en compte.
Se former en continu

FICHES PRATIQUES
« La datascience est un art nouveau, ame- « Aujourd’hui, quand on me donne un pro-
né à changer. Ce qu’il faut préparer, c’est blème de machine learning », poursuit le
une formation personnelle continue aux chercheur, « pour en avoir vu un certain
nouvelles technologies à venir », invite nombre, je sais déjà la première chose
Charles Miglietti, fondateur de Toucan à tester avant d’autres et cet avis est en
Toco. « Il y a la possibilité de se former par grande partie fondé sur l’expérience. Il
soi-même car la communauté est ouverte faut certes avoir été à l’école pour com-
et fonctionne beaucoup par data challen- prendre les algorithmes qui existent, leur
ges », renchérit Stephan Clémençon. fonctionnement intime, mais il y a beau-
Il existe aussi une particularité que la coup de choses qui viennent aussi par la
data science partage avec le monde de pratique. »
la recherche. « On s’attend à ce que la re-
cherche soit reproductible, et c’est pareil C’est en ayant traité cent problèmes de
dans le monde des données : si un algo- machine learning que, finalement, on
rithme fonctionne bien, il faut en faire la trouve les dénominateurs communs, les
preuve, et les codes de ces algorithmes algorithmes qui ont le plus de chance de
sont souvent disponibles en open source, marcher, et qu’on peut écarter ceux qui
comme un certain nombre de jeu de don- seraient une très bonne idée, mais mal-
nées de référence. Tout cela est livré à la heureusement inadaptés car le volume 93
communauté. C’est ce qui lui permet d’en de données est trop important.
faire usage et d’appréhender ces outils. Du
matériel est donc disponible et la commu- Relever sans cesse des défis
nauté attend que les usagers fassent un Les data scientists ont la chance et
retour de ces outils et les documentent. » l’obligation de se remettre sans cesse
en question et de se défier. Cette carac-
Une expérience qui se cultive téristique de leur métier est également
Ce qu’on demande à un data scientist, ce qui leur permet de se faire repérer,
à partir de données, d’un problème par- et de faire évoluer leur carrière. Pour
fois mal formulé, éventuellement avec Alexandre Gramfort, Kaggle fournit une
l’aide d’une personne du métier, c’est excellente formation. « Le but de la plate-
« cuisiner les données jusqu’à ce qu’elles forme Kaggle est de réunir les bonnes
se confessent et qu’elles arrivent à faire personnes qui apprennent vite, de façon
ce qu’on leur avait demandé », sourit à pouvoir les identifier et leur proposer
Alexandre Gramfort. « Pour y arriver, il d’évoluer, de faire d’autres missions… Les
faut pas mal d’expérience, il faut s’être data scientists sont nombreux à aller sur
battu pendant des jours sur du traitement Kaggle pour se former, parce qu’il y a des
de données, comprendre quelles sont les forums, parce qu’on y apprend en faisant,
formes des algorithmes, en comprendre la parce que finalement, la science des don-
complexité et les subtilités, quand est-ce nées est une science bien plus expérimen-
qu’ils fonctionnent ou pas… » tale que ce qu’on peut imaginer. »

Retrouvez toutes nos formations courtes en page 


Le quotidien des data scientists
Déployer & m
e
Mise en place / maintenance de plates- t

tre
formes de données // Mise en œuvre de

en
modèles / algorithmes en production //

œuvre des o
­Planification de grands projets logiciels
ou de systèmes de données // Mettre
en place les outils technologiques et
la stratégie adaptée pour sécuriser les
ut
données de l’entreprise s& il
des
projets

elopper et
Dév ut
il

ise
Développer / utiliser du hardware //

rd
94 Développer / utiliser des produits qui dépendent

es outils
de l’analyse de données en temps réel //
­Développer des tableaux de bord // Collaborer
sur des projets de code // Développement de
prototypes de modèles // Développer / ­utiliser
des logiciels d’analyse de données

Préparer
l'u
ti
Faire des processus ETL // Définir une
lis

modélisation statistique pour répondre à une


ati

problématique // Définir une architecture


on d

de traitement et une modélisation en


es donné

déterminant les types de données, les outils


statistiques et les méthodes appropriées
// Prendre en compte la réglementation en
es

vigueur concernant l’utilisation des données


à caractère personnel
Identifie
rl
Identifier les besoins et la problématique des es
directions métiers // Comprendre et mobiliser les

be
soi
connaissances métiers spécifiques // Identifier

ns en donnée
des cas d’usage à résoudre avec l’analyse de
données // Proposer des axes de gestion et
d’analyse de grandes masses de données //
Définir et mettre en œuvre un projet transverse
dans l’entreprise // Prendre en compte au

sd
el
quotidien le modèle économique et la stratégie
'en
treprise

iter les donn


plo ée
ex s
/
ns

Utilisation de tableaux de bord


des questio

pour prendre des décisions //


­Extraction de caractéristiques
// Analyse des données pour
­répondre à des questions //
à

Analyse de base des données


re
nd

po exploratoires // Utiliser des outils


Ré d’analyse et de gestion de bases
de données de types variés dans 95
de grands volumes, en faisant
preuve de réactivité et d’adaptation
afin de surmonter les obstacles
­rencontrés

d'équipe
ail
av
Tr

Enseigner / former
tager
par Communiquer avec des d’autres personnes
r &
// Organiser et
personnes extérieures à
e

guider des projets


iqu

l’entreprise // Création de
Commun

d’équipe
visualisations // Communiquer
les résultats aux décideurs //
Organiser et synthétiser les
résultats d’une analyse sous
une ou des formes adaptées au
Source :
besoin (rapport, graphique…) et
exploitables
« Tâches quotidiennes des
data scientists », selon le 2017
­Datascience salary Survey, par
O’Reilly (800 répondants, 69 pays +
42 États des USA)
Les compétences des data scientists
Le métier de data scientist recouvre des réalités très différentes, et le terme lui-même
de data scientist (voir fiche métier page ) peut décrire, selon les entreprises, des profils
plutôt orientés mathématique ou plutôt orientés informatique. Les métiers présentés
dans ce livret sont tous en évolution, nécessitent un ensemble de qualités et de com-
pétences qui leur sont transverses, et se complètent pour constituer des équipes de
data scientists. Pour chaque métier, nous proposons un profil type, articulé autour des
compétences orientés data et des compétences générales ci-contre. Ces profils peuvent
servir de boussole (radars présentés à titre d’exemples) pour choisir son premier métier,
ou évoluer d’un métier à un autre.

96

Crédits
Conception, rédaction, mise en page et suivi de réalisation
Aymeric Poulain Maubant, Nereÿs www.nereys.fr
Suivi de projet et contenus additionnels
Stéphane Menegaldo, Télécom ParisTech
Contenus complémentaires (fiches métiers, fiche datalab, fiches pratiques)
Maïté Allain, Upward Data et Denis Oblin, Ayming.

Crédits photos : Xavier Granet, Fonds Télécom ParisTech, droits réservés


Photo de couverture : Art by Lønfeldt on Unsplash
Crédits pictos : ArtFeelsGood, Noun Project (Barracuda, Gan Khoon Lay, Hea Poh Lin,
Gabriele Malaspina, Samy Menai, Tinashe Mugayi, Anusha Narvekar, Sergey Shmidt)
Merci à l’ensemble des professionnels qui ont apporté leurs témoignages ainsi qu’aux
relecteurs de cet ouvrage.
Reproduction interdite sans l’accord express de Télécom ParisTech – 2e édition, Mars 2019
Compétences générales
Passion / Curiosité intellectuelle / Créativité – Des évolutions technologiques constantes,
qui demandent une veille permanente // Capacités d’apprentissage // Rigueur et
précision // Capacités de communication – Être capable de communiquer clairement
auprès des opérationnels qui ne sont pas des profils techniques // Culture du partage
pour échanger, se tenir informé, monter en compétence et faire monter en compétences
// Autonomie // Sensibilité aux enjeux business // Ouverture d’esprit – Comprendre les
problématiques métiers et opérationnelles // Esprit d’équipe // Leadership

b+80+6010080
ech Busin
se t
ert i es
s
p
Ex

De
é

sign
Curiosit

spirit
1
3
5

irit
Lea

sp
de

sh
er
k
ac
r

ip
Créativité H

97
Compétences sur la donnée en particulier
En science des données  : Modélisation statistique  ; Machine learning  : arbres de
décision, régression logistique, traitement automatique du langage naturel, deep
learning… // En informatique : Langages statistiques  : R, Python  ; Langages de
programmation compilée  : C#, C++, Java…  ; Bases de données SQL et NoSQL  ;
Frameworks  : écosystème big data Hadoop, Spark… // Communication  : Outils de
data visualisation : Tableau, QIikview… Storytelling : capacité à raconter les données,
Dataviz : capacité à les mettre sous forme graphique

b+80+601008040
iz Math
taV s
Da
Bd
ry
Sto

d
ils Viz

C o d er

1
3
5
Out Bi

Da ch
L
g

ta Ma
D e e pL
Aider les médecins dans leurs diagnostics et leurs prescriptions. Permettre de
converser avec une machine en langage naturel. Proposer aux internautes les
articles, films et produits qu’ils vont apprécier. Doter les robots d’une capacité
d’attention à leur environnement. Donner à une voiture la possibilité de se conduire
seule à destination. Le point commun entre toutes ces actions ? un usage intensif
des données et des algorithmes.

Depuis une dizaine d’années, la lame de fond du big data n’a cessé de prendre
de l’ampleur, jusqu’à couvrir aujourd’hui l’ensemble des activités humaines :
transport, éducation, industrie, santé, services… La science des données a pris
un essor considérable. Avec les données issues de l’Internet des objets ou des
capteurs de l’industrie, des capacités de calcul et de stockage en croissance
constante, mais aussi des applications de plus en plus sensibles, les enjeux
économiques, juridiques et éthiques sont plus forts que jamais.

Alors que, combinée à la robotique et aux sciences du langage, la science des


données annonce une nouvelle ère pour l’intelligence artificielle, les métiers
qu’elle propose se diversifient. Qui sont les data scientists ? Ce guide vous propose
d’aller à leur rencontre. Il s’adresse aux étudiantes et aux étudiants cherchant un
métier d’avenir, aux futurs data scientists, aux entreprises qui veulent étoffer leurs
rangs, ainsi qu’aux acteurs de l’orientation, des médias, de la culture scientifique
qui souhaitent mieux connaître ce domaine en effervescence.

fr
v olution.
w w w . t e lecom-e
stech.f r-
m-pari ntists
ww w.teleco istech.fr/datascie
om-par
r : www.telec
su
érique
n version num
ee
ouvrag
vez cet
Retrou