Académique Documents
Professionnel Documents
Culture Documents
N T I ST S !
ATA S C I E
D Les mét
iers qui
façonn ent les transit
ions vers dema
in
Sommaire Fiches Métiers
L'ère numérique guidée par la donnée 2 Data & marketing 8
L'enjeu des données de santé 4 Data analyst 20
Objectif Data Driven 2020 5 Ingénieur big data 21
Explorer les données de transport 6 Expert Data visualisation 29
Accélérer la démarche orientée données 7 Data Scientist 32
Des métiers en évolution 10 Chief Data Officer 40
Des chaires et des liens 12 Head of Data 42
Devenir professionnel de la data 13 Chef de projet data 43
La data peut-elle tout résoudre ? 22 Architecte Big Data 44
S’éduquer à la donnée 23 Chief Technology Officer 45
Maîtriser les algorithmes 24 Expert sécurité 48
Design, Données & Algorithmes 25 Data protection officer 49
Boîte à outils d'algos 26 Data entrepreneur 56
Rendre les données visibles 28 Machine learning specialist 58
De man of science à scientist 30 Chercheur en data sciences 59
L’hybridation des compétences… 31 Consultant Data & Analytics 68
Des data scientists au quotidien 33 Data journalist 70
Déployer une charte data 34
Protéger les données personnelles 35
Les banques & assurances bougent 36
La donnée connectée 37
Les missions des CDO 41
Des données sous haute protection 46
Assurer à l’ère des big data 47
Libérer l’énergie des données 50
La ville, terrain de jeux de données 52
De l’open data à l’open innovation 54
Des start-up de la donnée 55
Vers la transition cognitive 57
La Recherche en DataSciences 60
Questions de recherche
Une thèse en machine learning
62
64 Fiches pratiques
Les nouveaux paradigmes scientifiques 66
Des données et des humains 69 Paroles de data scientists 76
Un journalisme qui redonne du sens 71 Faire son CV de data scientist 78
Naviguer en données complexes 72 Se réorienter vers la donnée 79
Faire voler les data 73 Grand groupe ou start-up ? 80
Les compétences des data scientists 84 Se former en continu 81
Avant-propos
Chère lectrice, cher lecteur,
Que vous vous destiniez à devenir data scientist, envisagiez une thèse de doctorat
ou désiriez créer votre start-up, je suis persuadé que ce livre saura guider vos
choix et vous ouvrir de nouveaux horizons. Et si vous êtes amenés à recruter ou,
tout simplement, à travailler avec des professionnels de la donnée dans votre
entreprise, il vous éclairera certainement sur ces métiers dont on parle tant.
Yves Poilane
Directeur de Télécom ParisTech
L'ère numérique guidée par la donnée
S’il existe un domaine qui a provoqué,
puis accéléré, la transition numérique en Nature des données
cours, ce n’est pas tant le déploiement Il est habituel de présenter les données
des réseaux ou la convergence des mé- massives à travers quelques-unes de
dias au début des années 2000, mais bien leurs caractéristiques fondamentales,
l’abondance de la donnée, produite par qui commencent toutes par la lettre V.
notre utilisation effrénée des réseaux et Les trois principales et immédiates sont
des objets connectés. Depuis 2012, année leur volume, la vitesse à laquelle elles sont
où le « big data » a été choisi comme terme produites, captées, consommées, et leur
tendance dans le monde du numérique, la variété, les données à traiter étant souvent
situation a fortement évolué. L’utilisation non structurées, composées de textes,
de telles données massives n’était cepen- d'images, de suites de chiffres… Leur
dant pas inconnue auparavant des direc- variabilité caractérise leur propension
tions des systèmes d’information, et c'est à changer de format ou de structure au
la soudaine production de nouvelles don- cours du temps, par l'ajout de nouveaux
nées de toute nature, la mise à disposition champs ou par l’intégration de données
en open data de nombreuses sources de similaires améliorant leur diversité.
données externes et la facilité avec les-
2 quelles il était possible de les manipuler, Les données en soi sont des faits bruts,
les assembler, et effectuer des calculs et pour créer de l'information, puis de la
avec, qui a provoqué la création de ser- connaissance, elles doivent être interpré-
vices innovants. La transition numérique tées. L'intérêt des données réside alors
de la société a pu commencer sérieuse- dans leur valeur intrinsèque qui émerge
ment, guidée par les sciences de la don- des traitements qu'on leur fait subir, des
née. Le terme data-driven economy faisait simples statistiques à l'apprentissage
son apparition. machine (machine learning) plus évolué.
classer
acquérir affiner
nettoyer indexer
extraire géocoder
transformer sérialiser
intégrer contextualiser
convertir anonymiser
aggréger décrire
protéger
traiter
rafraîchir présenter
interpréter
stocker archiver visualiser
apprendre
effacer partager
analyser
Déverrouiller la valeur tapie au cœur des le renouvellement de nos façons d’agir et
données ne sert cependant pas à grand- d’interagir. Moteur de la transition numé-
chose si leur mise en contexte n'est pas rique et des autres transitions en cours,
respectée et si ce qu'elles ont à dire porteuse d’enjeux juridiques et sociétaux,
n'est pas bien mis en lumière. Valoriser, non bridée par la technologie pour l’ins-
rendre visibles et permettre de visualiser tant, la donnée est à la fois une affaire de
les données sont une même démarche technicité et d’humains, et les data scien-
qui consiste à rendre les données com- tists en sont les artisans et le liant.
préhensibles, interprétables, utiles, par-
tageables, vivantes. Reste une condition : Une stratégie de la donnée, en
que ces données et leurs conséquences France et en Europe
soient conformes à la vérité et aux faits. Ce
souci de véracité des données est un mar- Lancé en France en 2013, le Plan Big Data
queur fort à préserver. Ajoutons que les a affirmé la donnée comme une des prio-
données ne sont jamais neutres : de nou- rités nationales, avec l’objectif de devenir
velles combinaisons de données peuvent une référence mondiale, et l’ambition de
créer de nouvelles connaissances aux créer 10 000 emplois directs d’ici 2019,
conséquences difficilement prévisibles. notamment via la formation des data
scientists. En 2015 le programme Indus-
Culture de la donnée trie du futur a défini trois priorités liées
Les data scientists – un terme large qui se au big data : l’économie des données, les
décline en une multitude de métiers, évo- objets intelligents et la confiance numé- 3
lutifs – sont les femmes et les hommes rique. Les données sont également l’une
qui naviguent dans les données au quo- des grandes orientations de la stratégie
tidien. Le volume de ces dernières n’est de recherche France-Europe 2020. Issue
pas toujours leur caractéristique majeure. du Plan d’investissements d’avenir, la pre-
Les open data, ces informations publiques mière plate-forme big data sponsorisée
librement accessibles et réutilisables, dé- par l’État français, Teralab, dotant l’in-
signant également des données d’acteurs novation, la recherche et l’enseignement
privés qu’ils libèrent dans les mêmes d’importantes capacités de traitement big
conditions, sont un type de données vec- data, a reçu le label « Silver i-Spaces » par
teur d’innovations et d’enrichissement des la Big Data Value Association fin 2016, label
données que chaque acteur produit. Le détenu par seulement trois plate-formes
caractère personnel de certaines données en Europe. Teralab est pilotée par l’IMT et
est une qualité qui nécessite une attention le GENES, en partenariat avec l’INSEE.
particulière et une éthique de tous les ins-
tants. La place déterminante qu’elles ont Dans le monde entier, tous les domaines
prise dans nos sociétés rend le dévelop- d’activité sont touchés par l’économie de
pement de la culture des données –com- la donnée, chacun à des stades différents.
prendre leur rôle et se donner les moyens Des femmes et des hommes data scien-
d’agir avec – essentiel à double titre : tists racontent à présent leur métier pas-
l’examen critique de leur place au cœur sionnant, dans les secteurs historiques
de nos échanges et de nos décisions, et que sont la santé et les transports.
L'enjeu des données de santé
Quand en 2008 Google révèle qu'il semble Les données de santé ne sont pas des
capable de prédire les lieux d'épidémie de données comme les autres. Elles font
la grippe deux semaines avant les centres l'objet d'une définition officielle dans le
nationaux de suivi des maladies, à par- Règlement européen 2016/679 : il s'agit
tir de corrélations via les requêtes faites d'une donnée médicale ou relative aux dé-
sur son moteur de recherche, une prise terminants généraux de la santé, se rap-
de conscience sur le tour que pourrait portant à l’état de santé d’une personne,
prendre les flux massifs de données ap- qui révèle des informations sur sa santé
pliquées à la santé s'opère. En exploitant physique ou mentale passée, présente ou
des jeux de données nouveaux, provenant future, y compris des informations rela-
des comportements de la multitude, il tives à son enregistrement pour la pres-
semble soudain envisageable de prédire tation de services de santé, ou obtenues
le futur, dans une certaine mesure. Avec lors de tests ou d'examens, et d'autres
les objets connectés, c'est également types d'informations de santé quelle qu'en
l'accès à des données relatives au bien- soit la source. Ces questions règlemen-
être (sommeil, alimentation, gestion des taires et le grand nombre d'organismes
moments de sport) qui devient possible. de validation ou de contrôle existant, les
Enfin, les progrès dans l'analyse d'images questions de sécurité et de protection de
4 et d'autres signaux d'origine médicale, et ces données, les questions d'éthique as-
le recours à des systèmes d'intelligence sociées, font de la santé un secteur où la
artificielle, permettent de mieux détecter variété d'acteurs intervenants doit gérer
certaines pathologies. les données avec soin.
“
Yoann Janvier est Lead Data Scientist chez Ipsen (Euronext: IPN; ADR: IPSEY), groupe
pharmaceutique international de spécialité. Le département
auquel il est rattaché est dirigé par un vice-président big data &
analytics et est composé d’un directeur des données, d’un chef de
projet big data et d’un business analyst. Yoann quant à lui est en
charge du Data Lab avec une petite équipe de data scientists
externes. Il pilote et réalise des projets exploratoires avec
l’objectif de création de valeur à partir de la donnée. Les
méthodologies agile et test and learn sont appliquées tout
au long de la chaîne : collecte et exploration des données,
recherche de caractéristiques pour alimenter les algorithmes
d’apprentissage machine, data-visualisations…
En 2017 un projet big data d’industrialisation a été lancé avec pour objectif de passer
à l’échelle en terme de valeur apportée et de volume d’utilisateurs cibles. La nouvelle
plate-forme rendra plus robuste la collecte des données, les développements
exploratoires et l’exposition des données. Ce type de plate-forme aidera à mettre en
œuvre des projets plus complexes, en particulier avec le traitement de données en temps
réel. « Cette Data Factory est un guichet unique pour toutes les initiatives exploratoires et
pour manipuler des données quotidiennement. Les données y sont exposées et accessibles via
des API, internes et externes. Par analogie, notre Data Factory est une bibliothèque où chaque
nouveau service est un nouveau livre. » Ipsen évalue également d’autres technologies
innovantes tout au long du parcours de soins du patient : remontée de données d’essais
cliniques avec les objets connectés, gestion de la douleur ou programme de rééducation
par la réalité augmentée, avec des systèmes d’intelligence artificielle.
linkedin.com/in/yjanvier/fr
@yoannjanvier Retrouvez Yoann Janvier page
Explorer les données de transport
Avec les données de santé, les données les drones ouvrent de nouvelles perspec-
de transport sont parmi les premières à tives. Enfin, c’est de ce secteur qu’est né
avoir été largement utilisées pour créer le terme « ubérisation ».
des preuves de concept de services in-
novants à l’ère numérique. À l’occasion Le secteur du transport est un domaine
de nombreux hackathons, et en utilisant où l’on commence à avoir suffisamment
des ensembles de données de plus en de recul, et s’il reste encore beaucoup
plus ouvertes, les amoureux de la don- à explorer, de nombreux chantiers sont
née de transport et de la donnée géogra- passés en phase industrielle, ce qui offre
phique ont imaginé des services d’aide à un panorama assez large des projets de
“
la m
ulti-modalité, de suivi et de visualisa- data scientists.
tion de trajets, ou encore de covoiturage.
Côté matériel, les véhicules autonomes et
“
www.linkedin.com/in/angeliquebidault
Angélique Bidault-Verliac
Directrice Datascience & Connaissance Client
Voyages-sncf.com
La période actuelle, très motivante, consiste à accélérer cette démarche data driven.
Le maître-mot est de démocratiser la donnée. Un programme est mis en place pour rendre
autonomes les personnes qui ont besoin de données de comportement clients anonymisés
dans l’entreprise. Le premier chantier consiste à former ces personnes aux agrégats
clients (segmentation RFM, flag clients acquis…) et le second, mené en parallèle, à mettre
à disposition d’un plus grand nombre toutes les analyses statistiques réalisées. « L’objectif
est de libérer les data scientists et les data miners, et placer tout ce qui relève du reporting
directement dans les équipes opérationnelles. » Cela change le périmètre d’action des
commerciaux, accédant à présent dans leur quotidien à toutes les études data en interne et
qui, sensibilisés à l’importance des données, peuvent devenir sponsors de futurs produits.
Un autre enjeu important est celui de la veille technologique. « De nombreux outils
d’apprentissage machine sortent régulièrement. Les data scientists doivent s'emparer de ces
outils, et avec leur appui un membre de l’équipe spécialisé en innovation orchestre cette veille. »
b+100+2001006040
ech Busin
se t
ert i es
s
p
Ex
De
é
sign
Curiosit
spirit
sp
de
sh
er
k
ac
r
ip
Créativité H
b+60+6002010080
Le parcours idéal commence en agence ou chez
un acteur du web à fort trafic, l’évolution vers des iz Math
taV s
responsabilités de plus en plus large se faisant Da
rapidement
Bd
ry
Sto
de suivi de trafic
C o d er
1
3
5
Qualités : parfaite connaissance des outils digitaux,
Out
Da ch
L
g
Le travail sur les destinations est un bon Le résultat a été la proposition d’un
exemple de ce que l’analyse des données chef de projet marketing relationnel, ne
a apporté. « Nous avons collecté des in- connaissant pas nécessairement les data
formations de navigation qui se rapportent sciences, trois data scientists, un ingé-
notamment à la destination recherchée par nieur data et un développeur. Se voyant à
l’internaute. Mes équipes ont créé des algo- présent tous au quotidien, les data scien-
rithmes de recommandation pour identifier tists appréhendent bien mieux les enjeux
les destinations auxquelles vous pouvez et besoins du marketing. « Nous déclinons
être sensible. Ainsi, chaque newsletter est ce schéma des feature teams sur d’autres 9
personnalisée. Nous avons 13 millions de domaines, comme l’acquisition et les cibles
visiteurs uniques, ce qui fait que nous avons prioritaires. C’est la création d’équipes au-
suffisamment de données à disposition. » to-organisées et multidisciplinaires. »
explique Angélique Bidault-Verliac. Ces
données sont couplées à des informations Des équipes en évolution
météorologiques et à une bibliothèque Le management des équipes s’en est
d’images –et leurs attributs– de destina- trouvé transformé. Chacune d’entre elles
tion autour d’une ville. gère à présent sa propre feuille de route,
et Angélique Bidault-Verliac s’assure que
les projets avancent sans difficulté. Cette
1 million d’appels par mois autonomie gagnée lui a donné plus de
temps pour s’impliquer sur les méthodes
760 millions de recherches et pour effectuer un coaching adapté aux
par an sur voyages-sncf.com besoins et aux rythmes des différentes
personnes. « Des communautés de data
scientists sont créées pour qu’ils puissent
En utilisant des techniques d’A/B testing, échanger, qu’ils voient de nouvelles pers-
les newsletters personnalisées sur la pectives et ne s’ennuient jamais. Il y a
destination ont permis une augmentation des instances de partage régulier, dont il
de 20% de volume d’affaires par e-mail et faut trouver le bon rythme. L’évolution des
une hausse de 25% du taux de clics. équipes et celle des carrières sont liées. »
Des métiers en évolution
Si les équipes de data scientists sont au- nous cherchons des profils avec une dimen-
jourd’hui en évolution, c’est également sion machine learning et analyse statistique
parce que les métiers de data scientist ont des données, souvent appelé analytics. »
“
subi leur propre évolution, grâce à l’ex-
périence des premières années de data Selon la maturité des entreprises en
science dans les entreprises et dans les matière de culture de la donnée, qu’il
organismes d’enseignement supérieur et convient de jauger, et bien sûr du type
de recherche. de données qu’elles utilisent, les
profils de poste peuvent encore
Ardent créateur de liens entre l’en- présenter sous un même vo-
seignement, la recherche et les en- cable des réalités différentes,
treprises, Stephan Clémençon est et les collaborations des uns
professeur à Télécom ParisTech avec les autres en découlent.
depuis 2007, qu’il a rejoint pour y Chez Voyages-sncf.com par
développer la recherche et l’enseigne- exemple, les data scientists ont
ment du machine learning. Responsable un socle mathématique très poussé,
de la première chaire de recherche en tandis que les ingénieurs big data sont
big data (Machine Learning for Big Data , plus orientés informatique, s’occupant de
10 page ), il est également en charge du la collecte de la donnée et créant effecti-
programme de Mastère Spécialisé® « Big vement le code. Certes, les data scientists
Data », et a conçu le Certificat d’études codent (en Python), mais pour passer en
spécialisées « Data Scientist ». mode production, et industrialiser, leur
code est revu par les ingénieurs big data,
« Auparavant », rappelle-t-il, « les entre- avec une réflexion sur le cadencement
prises effectuaient des recrutements big pour que le système global soit robuste.
data sans discerner s’il s’agissait d’in-
frastructures big data, de manipuler des Les passerelles existent entre les mé-
technologies telles que Casandra, Mongo- tiers, ou vers ces métiers, et c’est le rôle
DB, des bases de données, des graphes, des responsables d’équipes et des chief
faire du machine learning ou de la data data officers (voir ce métier pages –)
visualisation, ou encore avoir quelqu’un de faire progresser les personnes selon
qui mette en place un lac de données –les leur appétence, et d’identifier celles qui
technologies et leurs termes évoluent éga- aiment la donnée pour les former vers ces
lement… Tous étaient recrutés sans dis- métiers, en partant de leur connaissance
tinction, sous la même étiquette big data. » antérieure de l’entreprise.
Maintenant les entreprises commencent
à identifier véritablement leurs besoins : Une explosion des méthodes
« s’agit-il d’infrastructures, d’apprentissage Les data scientists en poste doivent
machine ou d’exploitation des données ? également s’adapter à la multiplication
Sous le vocable data scientist aujourd’hui, des nouvelles solutions technologiques.
« Dans le machine learning existe un cycle documents multimédia, reconnaissance
vertueux entre les applications et la théo- de sons et d’images… Elle interroge aussi
rie», poursuit Stephan Clémençon. « Les les aspects juridiques, économiques, poli-
méthodes sont requises par les applications tiques et philosophiques en relation avec
et les solutions sont apportées par les pra- l’utilisation des données personnelles.
ticiens et ensuite revisitées et améliorées
par les mathématiciens. Attention, car les À Télécom ParisTech, la proximité avec
effets d’annonce ne reflètent pas toujours les entreprises s’incarne par le choix
la réalité scientifique. Apprentissage par des intervenants dans les formations big
renforcement, apprentissage sur des séries data : « Stéphane Gentric (Research Unit
temporelles ne peuvent pas se traiter de fa- Manager dans le groupe Morpho (Safran))
çon simple et naïve, sans un fort background peut donner des cours sur le deep learning,
en mathématique sous peine de réinventer et notamment sur l’outil TensorFlow qu’il
la roue. En formation, j’alerte les futurs data pratique et que l’on ne retrouve pas dans un
scientists opérationnels sur le fait que la laboratoire par exemple. » Les intervenants
discipline va bouger et que c’est important sont soit issus du monde professionnel,
de ne pas apprendre les techniques de l’état avec une forte compétence opérationnelle
de l’art comme étant figées. Le panorama et proches des besoins des entreprises,
des méthodes aura largement changé dans soit des enseignants chercheurs qui
quelques années simplement car la techno- offrent une vision à long terme de leurs
logie change et le type de données auquel disciplines, et continuent à faire pro-
on est confronté, avec l’internet des objets gresser le socle de connaissances qu’ils 11
en particulier, n’est pas le même que celui transmettent. L’enseignement effectué
avec lequel on a pu faire la reconnaissance est aussi une initiation à la recherche et
de formes il y a quelques décennies. » offre la capacité aux élèves de lire des
articles de recherche et de continuer à
Et les liens tissés entre chercheurs et en- progresser avec les bases dont ils dis-
treprises profitent également aux élèves. poseront. « Aujourd’hui, on va être amené
à traiter des flux de données, des données
Se former en proximité avec hétérogènes échantillonnées de différentes
les entreprises et avec la façons, sous des contraintes de mémoire, de
recherche traiter du quasi temps réel, qui sont très dif-
férentes de ce qu’on a connu. Ces méthodes
Le dynamisme de la filière big data dé- sont en cours d’élaboration, et c’est pour
coule d’une recherche pluridisciplinaire cela que la recherche est également totale-
stratégique et unique en Europe. Cette ment indissociable de la formation. »
filière s’articule autour de nombreuses
thématiques : graph-mining et explora- Cette vision à long terme du domaine ren-
tion des réseaux sociaux, ranking et fil- force les thématiques d’actualité, traitées
trage collaboratif, détection d’attaques via des projets fil rouge et des séminaires,
et d’anomalies, mathématiques finan- qui sont autant d’opportunités pour les
cières, maintenance prédictive, ciblage étudiants de rencontrer les entreprises et
marketing, indexation et recherche de d’être au plus près de leurs besoins.
Des chaires et des liens
Télécom ParisTech, en partenariat avec lement de la recherche, voient les résultats
des entreprises, et avec le soutien de la qui se dessinent, et apprennent des choses,
Fondation Télécom, anime trois chaires y compris si rien n’aboutit directement. La
de recherche et d’enseignement big data, phase de transfert, c’est-à-dire concrète-
au sein de l’Institut Mines-Télécom. ment produire quelque chose qui est trans-
férable pour l’entreprise, peut toutefois
Les chaires Valeurs et Politiques des Infor- arriver par la suite. » Et comme pour les
mations Personnelles et Machine Learning liens entre data scientists et métiers de
for Big Data sont présentées en pages l’entreprise, les chercheurs de la chaire
et respectivement. voient comment leur problématique de
recherche sera utile aux personnes avec
Talel Abdessalem, responsable de la qui ils discutent dans les entreprises.
chaire Big Data & Market Insights, explique « Les financements permettent également
l’intérêt d’une chaire pour les entre- de soutenir une activité de recherche fon-
prises : « Dans une chaire existe une cer- damentale, dont la face applicative, l’utilité,
taine flexibilité pour l’équipe de recherche, n’est pas forcément visible tout de suite et le
car la nature même des chaires, le mécénat, sera à long terme. Les entreprises voient un
fait qu’il n’y a pas d’obligation de transfert. double intérêt à la chaire : une utilité directe,
12 Les comités de pilotage et les comités opé- et un moyen de financer des recherches
rationnels orientent le travail de l’équipe fondamentales sur le laboratoire, sur la re-
de recherche vers des sujets concrets pour cherche en France et sur le développement
les entreprises. Il y a une proximité avec les de la science en général, dont elles pourront
équipes de l’entreprise, qui suivent le dérou- profiter également.»
Cette chaire est partie du constat que de plus en plus d’entreprises disposent de
masses de données relatives aux consommateurs, hétérogènes, évolutives, provenant
de multiples sources internes ou externes – capteurs, réseaux sociaux, transactions en
ligne, traces laissées sur le web… Leur prise en compte efficace dans les processus
métiers représente dès lors autant de défis technologiques.
bdmi.wp.mines-telecom.fr
Devenir professionnel de la data
SE FORMER À LA DONNÉE
Télécom ParisTech est l’une des premières écoles d’ingénieurs à s’être investie
dans le big data avec la création d’un Mastère Spécialisé® en septembre 2013. Cette
formation pluridisciplinaire débouche sur un savoir-faire opérationnel et prépare à
l’ensemble des métiers dans le domaine de la science des données. Elle couvre aus-
si bien les aspects techniques que les aspects transverses. Son programme évolue
chaque année, selon les retours d’expérience des diplômés et les recommandations
des entreprises. Voir l’enquête insertion pages .
“
Son objectif est l’obtention d’un savoir-faire technique, à l’interface des mathéma-
tiques appliquées et de l’informatique. Voir l’enquête insertion pages .
« Cette première édition de la Junior Conference sur la science des données s’adressait
aux étudiantes et étudiants de première année de thèse, de master et de deuxième
ou troisième année d’école d’ingénieur à l’Université Paris-Saclay. Cet événement
leur a fourni l’occasion de présenter les travaux issus de leurs années d’études, et de
développer leur sens critique à travers une véritable conférence. Parmi les invités se
trouvaient Hervé Jégou, chercheur en intelligence artificielle chez Facebook, Patrick
Valduriez de l’Inria, Gabor Lugosi de l’Université Pompeu Fabra (Barcelone) et Isabelle
Guyon, ingénieure en machine learning.»
Premier contact ou reprise de contact avec le monde des données, les MOOC
offrent une solution flexible, accessible et compatible avec une activité profes-
sionnelle, permettant d'apprendre à son rythme. C’est également l’occasion de
PREMIER
discuter avec une grande variété d'autres apprenants, et une solution idéale
pour pouvoir situer son appétance à aller plus loin dans un domaine d’actvité.
ENQUÊTE
Le MOOC, qui se termine par un quizz validant les acquis, se compose de sept
parties : programmation Python, limites des bases de données relationnelles,
algèbre, analyse, probabilités, statistiques et d’un exemple de classifieur, le
14 perceptron. Six heures de vidéo ont également été produites en appui des cours.
www.telecom-evolution.fr/fr/domaines/big-data
CONTACT
INSERTION
“
Ons Jelassi est enseignante – chercheuse nécessité de valider un pro-
à Télécom ParisTech et coordinatrice jet. » Avec la sixième
du MOOC « Fondamentaux pour le session qui s’est ter-
PREMIER
Big Data ». Ses travaux de recherche minée en avril 2017,
portent sur le passage à l’échelle des ce sont environ
ENQUÊTE
algorithmes d’apprentissage et de 33400 personnes
prédiction sur les données massives. qui ont débuté ce
Elle rappelle que ce MOOC a été conçu MOOC, et près de 1750
au départ pour préparer les personnes qui ont obtenu l’attesta-
désireuses de suivre des formations big tion de réussite. À chaque session
data plus poussées. « Le sujet des don- une communauté se construit sur
nées impactant tous les secteurs d’activité, les forums de discussion (156 fils dif-
nous faisions face à une très forte demande férents lors de la dernière session),
pour suivre nos formations diplômantes. Il facilitant l’entraide et la constitution
était nécessaire de construire un parcours des premiers réseaux pour les fu-
préalable pour leur permettre de se prépa- turs data scientists, les échanges se
rer et de valider le niveau de connaissances faisant ou non en présence des for-
nécessaires. » mateurs. Ces derniers sont la force 15
de ce MOOC, car « Télécom Paris-
La première session attire un peu plus Tech réunit un écosystème riche, avec
de 7400 personnes, et 293 décrochent des chercheurs en droit, en sciences
leur attestation de réussite, « ce qui nous économiques et sociales, dans les ré-
mettait dans la bonne moyenne des MOOC seaux, dans l’informatique et dans les
où l’on observe un taux de complétion de mathématiques appliqués, et dans des
5%. C’était même un résultat plutôt élevé, domaines connexes comme l’Internet
compte-tenu du niveau technique à atteindre des objets, les transports intelligents
sur 6 semaines à l’époque, avec en plus la ou la cybersécurité. »
Big data : premiers succès et retours d’expérience (tout public) // Big data : enjeux
stratégiques et défis technologiques (tout public) // Big data : panorama des
infrastructures et architectures distribuées // Data science dans le Cloud : big data,
statistiques et machine learning // Data science : introduction au machine learning //
Introduction à la sécurité du big data // Visualisation d’information (InfoVis) // Moteurs
de recommandation et extraction de données du Web // Text-Mining // Introduction à R
Mastère Spécialisé® Big Data
97+T 75+
91+F
Accélérateur de carrière numérique
ENQUÊTE INSERTION
ont trouvé un
e+98+95+92+87
Ce qu'ils apprécient
dans la formation
Ils sont plutôt 98,3% 95% 91,8% 86,9%
satisfaits ou
très satisfaits…
…de l'ouverture
sur le monde de
l'entreprise …de la durée
…de la qualité …de l'équilibre de la formation
16 pédagogique des entre la formation
enseignants de théorique et
l'école pratique
90+L
Les entreprises qui recrutent nos étudiants
180=
18% TPE
480=
48% PME des entreprises
qui les emploient
210=
21% ETI 90% considèrent que
le big data est
130=
13% GRANDES ENTREPRISES une priorité
440=
44% dont Start-up
b+60+70+70+80+50
Salaire : + de 50k€ pour
60% des diplômés
ENQUÊTE INSERTION
Bénéfices de la formation
Impact positif 93,3% accroît les chances
de la formation de trouver un emploi dans le Big Data
92% intérêt du poste 90% formation valorisée dans le monde du travail
78% niveau de responsabilité 91,5% permet de créer des contacts professionnels
78% rémunération 93% permet aux salariés en reconversion de se
réorienter professionnellement
400=
40% 600=
60%
en poursuite d'études en reprise d'études
Diplôme à l'entrée Expérience professionnelle
54+31+78v 14+30+26v
dans la formation à l'entrée dans la formation
Doctorats Moins de 5 ans 17
8% Plus de 15 ans
14%
Autres 7% 30%
89+T
Un cursus certifiant de haut niveau
ENQUÊTE INSERTION
89%
des répondants
sont satisfaits de leur formation
e+93+89+85
Ce qu'ils apprécient
dans la formation
Ils sont plutôt 93% 89% 85%
satisfaits ou
très satisfaits…
b+32+55+87+42+32
Salaire : + de 60k€ pour
65% des diplômés
ENQUÊTE INSERTION
68+6+197v 40+16+28v
Taille de
Moins de 10 l’entreprise Moins de 10
6,5% en nombre de
De 10 à 250 salariés
16%
19% De 10 à 250
28%
6,5% 40%
De 250 à 5000 Plus de 5000
68% 16%
Plus de 5000 De 250 à 5000
200+140+95+65= 140+205+125+30=
Formation initiale
140+140+40+40+140= Secteurs d’activité
Diplôme d’ingénieur 40% 28% Activités informatiques
Master 28% et services d’information
Doctorat 19% 28% Activités financières et
d’assurance
Autre 13%
8% Industrie
19
8% Énergie
28% Autres secteurs : édition,
Années d’expérience audiovisuel, recherche,
santé, administration…
Plus de 16 ans 28%
10 à 15 ans 41%
5 à 9 ans 25%
Data Scientist Data Analyst
Moins de 5 ans 6%
Architecte SI big data Ingénieur big data
b+100+6080
ech Busin
se t
ert i es
s
p
Ex
De
é
sign
Curiosit
Les spécialistes
spirit
20 1
3
5
d’une source de données
irit
Lea
sp
de
sh
er
k
ac
r
ip
Créativité H
b+60+60402080100
Bonne connaissance des outils analytiques. Goût
pour les chiffres, sensibilité aux enjeux business. iz Math
taV s
Ces profils peuvent également être des consultants Da
freelance.
Bd
ry
Sto
1
3
5
de données (type Tableau)…
Out
Da ch
L
g
b+40+60100402080
ech Busin
se t
ert i es
s
Ex p
De
é
sign
Curiosit
spirit
1 21
3
grâce à la technique 5
irit
Lea
sp
de
sh er k
ac
r
ip
Créativité H
Formation IT Profil
b+60+1004020
Ces profils peuvent également être ou devenir des
Viz Math consultants freelance.
D ata s
Bd
ry
Sto
1
3
5
données NoSQL (MongoDb, ElasticSearch,
Out
Da ch
L
g
Ces gisements soudains de valeur sus- Il est cependant indéniable que la data
citant un grand engouement, le recours science a tenu de belles promesses.
excessif à la donnée pour résoudre tous Comme le rappelle Stephan Clémençon,
les problèmes a parfois atteint des limites professeur à Télécom ParisTech, « per-
et pu décevoir. Certains se sont retrouvés sonne ne se lancerait aujourd’hui dans le
noyés sous un déluge de données qu’ils ciblage commercial sans un outil de scoring
ne savaient plus contenir, d’autres ont ou- ou de recommandation. C’est une activité
blié la nécessité d’arrêter l’exploration à reconnue qui pèse plus de 20% de chiffre
temps, et celle de sortir des produits in- d’affaires en plus. Dans le milieu industriel,
dustrialisables sur la base d’un volume tout le monde utilise le terme de mainte-
et d’une variété maîtrisée des données. nance prédictive et l’identifie comme un ca-
Le recours systématique aux données talogue d’outils qui permettraient de mieux
et aux chiffres risque de pousser à une gérer des infrastructures très complexes.
confiance aveugle, or il faut aller voir les C’est le cas dans le domaine du transport,
métiers pour comprendre leur contexte, il aérien en particulier, et dans les grands ré-
faut écouter les clients qui remontent des seaux d’énergie. Comme on vend un service
ressentis sortant de l’ordinaire. Tout ne plutôt qu’un produit, il s’agit de pouvoir le
peut pas non plus être fait avec les don- maintenir à un certain niveau et de faire des
nées collectées des clients, comme par économies en le maintenant mieux. »
S’éduquer à la donnée
Pour le data scientist Yoann Janvier, le La France joue un rôle moteur pour amé-
principal frein à l’innovation en science liorer la culture de la donnée sur tout le
des données n’est pas vraiment la tech- territoire et en Europe, par son engage-
nologie : « c’est l’accès à la data, qui, pour ment ancien et soutenu dans le dévelop-
des raisons réglementaires et organisation- pement des open data – nouvelle licence
nelles, pose parfois problème. Ce nouveau parue fin avril 2017 –, à travers certains
métier est également très mystérieux dans articles de la loi pour une République
les entreprises dites classiques : il faut pas- numérique d’octobre 2016, comme l’ou-
ser du temps à expliquer, éduquer, dévelop- verture en avril 2017 du service public
per une culture de la data. Sans relais dans de la donnée de référence (base adresse
les organisations, le data scientist ne peut nationale, plan cadastral informatisé, ré-
pas grand chose. » En effet, si se former à pertoire des entreprises et des établisse-
la donnée fait partie du quotidien des data ments…), ou la tenue régulière de hack-
scientists, s’éduquer à la donnée est notre athons à portée nationale. « Sur les enjeux
affaire à tous. D’autant que les réglemen- de régulation», poursuit Gilles Babinet, « la
tations en lien avec la donnée sont nom- France a largement œuvré pour participer à
breuses. Citons par exemple le décret de l’élaboration du RGPD. Même si le texte final
juillet 2016 sur l’obligation d’ouverture et a fait l’objet de nombreux compromis, visant
de mise à disposition des données de pro- notamment à le ramener à sa dimension 23
duction et de consommation d’énergie des principielle, il ne fait que peu de doute que
opérateurs, l’obligation règlementaire eu- certains éléments, comme par exemple les
ropéenne faite aux assureurs et aux ban- pénalités imposables aux contrevenants, ont
quiers de rendre compte des risques de été influencés par la position française. »
solvabilité, ou encore le règlement géné-
ral sur la protection des données person- Les obligations règlementaires et les pos-
nelles (RGPD, voir page ). sibilités offertes par des technologies à
l’évolution rapide sont à l’origine de nou-
Gilles Babinet, représentant la France velles fonctions et de nouveaux métiers.
auprès de la Commission européenne Garant d’équilibres précieux, un déonto-
pour les enjeux du numérique, et auteur logue de la donnée s’assurera que l’uti-
d’ouvrages sur le big data et sur la trans- lisation de données par une entreprise ne
formation digitale, y voit là « un vrai sujet nuit pas à sa réputation et que sa « straté-
d’éducation des citoyens. Je ne cesse d’être gie donnée » reste conforme à ses objectifs
confronté à des fantasmes et à de la mé- généraux. L’éducation à la donnée passe
connaissance à ce sujet. Comprendre par aussi par l’étude et l’impact de nouvelles
exemple les bases du RGPD est loin d’être combinaisons technologiques. L’immu-
superflu. C’est un texte fondateur et il ouvre tabilité et la transparence inhérentes à
des enjeux de choix aussi à l’échelon du certaines blockchains, par exemple, pose
citoyen. Cette éducation vise également le des questions en termes de sécurité et de
personnel politique. » protection des données personnelles.
Maîtriser les algorithmes
Les données ne sont rien sans les algo-
rithmes qui permettent de les manipuler, Un algorithme est une suite finie
les transformer, les classer. Tri à bulles, et non ambiguë d’opérations
tri cocktail, tri par tas, tri quicksort… ou d'instructions permettant de
l'élève ingénieur perçoit rapidement que résoudre un problème ou d'obtenir
de nombreux algorithmes existent pour un résultat.
trier des données, que leur efficacité dé-
pend du type de ces données, et que leur Si cette définition est valable pour les
choix a des implications sur la mémoire algorithmes simples comme ceux du
utilisée et l'énergie consommée. Cette fa- tri, elle laisse de côté les conséquences
mille d'algorithmes de tri est une bonne des algorithmes plus généraux, larges et
introduction à la complexité des algo- complexes, en particulier ceux qui aident
رزمي
rithmes en général et aux questions tech- à prendre des décisions. L’évaluation des
niques à se poser en les créant. Et même impacts d’un algorithme est donc tout
pour un objectif simple comme le tri, vi- aussi essentiel que leur vérification – ils
sualiser leur fonctionnement est souvent font effectivement ce pour quoi ils ont été
nécessaire pour en saisir toutes les subti- créés – ou leur sûreté – ils ne sont pas dé-
lités et y trouver des pistes d'optimisation. tournables.
24
Le grand public s'est quant à lui peu à L’État a montré l’exemple en publiant en
peu familiarisé avec l'algorithme du mo- mars 2017 un décret d’application de la loi
teur de recherche de Google – sans en pour une République numérique, relatif
connaître nécessairement les détails – ou aux droits des personnes faisant l’objet de
avec celui de la timeline de Facebook. Il a décisions individuelles prises sur le fon-
appris que « tout le monde n'est pas égal dement d’un traitement algorithmique.
devant l'algo », et que selon son historique, Dans un monde où nous serions « tous de-
sa provenance géographique, et d'autres main algorithmés », selon la formule d’une
types de données souvent personnelles, conférence proposée par le Secrétariat
les algorithmes pouvaient présenter une Général pour la Modernisation de l’Ac-
vision du monde adaptée à celui qui l'utili- tion Publique, l’État redonne à chacun la
sait. Avec les algorithmes de recomman- possibilité de connaître et comprendre les
dation qui influent nos décisions et nos décisions administratives prises à son en-
comportements, ils peuvent même finir contre. Que ce soit en matière de fiscalité,
par façonner le monde à notre insu. ou d’admission post-bac, les applications
sont déjà en cours. C’est un modèle à
Présenté comme une recette de cuisine, suivre pour les acteurs privés également,
avec ses données-ingrédients, illustré par et dans tous les cas un point de vigilance
du code informatique abscons ou s'écou- pour les utilisateurs, qui doivent amélio-
lant comme dans Matrix, l'algorithme est rer leur culture algorithmique, tout autant
tour à tour inoffensif ou inquiétant. que leur culture des données.
Design, Données & Algorithmes
Qu’est-ce que concevoir de bons algo- dèle permettant de décider par approche
rithmes ? Qu’est-ce que faire un trai- inductive et déductive, soit le raisonne-
tement respectueux des données ? Ac- ment par analogie ou différence, selon
tuellement préoccupation exclusive de une approche transductive. Le choix du
l’ingénieur, la modélisation d’algorithmes modèle pour la première porte en soi une
pourrait bien bénéficier de l’approche et vision du monde, et n’est donc pas anodin.
de la sensibilité des designers. La seconde méthode, qu’on retrouve dans
les algorithmes de recommandation,
Maguelonne Chandesris, data scientist, est moins rigoureuse mais plus simple
responsable de la thématique « Data, Mo- à mettre en œuvre. Dans les deux cas le
bilités et Territoires » chez SNCF Innovation code informatique façonne le monde et
& Recherche, est docteur en mathéma- établit une gouvernance algorithmée.
الخوار
tiques et diplômée du Mastère Spéciali-
sé ENSCI « Innovation By Design ». Elle L’automatisation des décisions pose des
y a mené une recherche sur les enjeux questions à enjeux forts. La sécurité et
du design dans la forme des décisions la fiabilité des systèmes automatiques
algorithmiques, que l’on retrouve sous doivent être garanties. Du concepteur à
forme d’un essai dans le n°4 de la revue l’utilisateur, en passant par le construc-
Sciences du Design. Illustrant son pro- teur et le propriétaire, les responsabilités 25
pos d’exemples puisés dans le domaine doivent pouvoir être établies. La déléga-
des transports – l’usage de la boîte de vi- tion de décisions aux machines et la capa-
tesse automatique, les évolutions encore cité de ces dernières à prendre des déci-
en cours de l’automatisation de la circu- sions éthiques doivent être étudiées. Les
lation aux carrefours et les algorithmes désirs et l’imagination ne doivent pas être
de calcul d’itinéraire –, elle rappelle que bridés par des algorithmes véloces et trop
l’automatisation des décisions n’implique friands de notre attention.
pas toujours son adoption, qu’elle modifie
l’environnement et les comportements, et L’acceptabilité des algorithmes est en jeu.
qu’elle peut brider les désirs des utilisa- Pour cela l’humain doit trouver une vraie
teurs au profit de tiers non nécessaire- place dans le couplage qui le lie de plus
ment connus. en plus aux systèmes numériques. L’in-
troduction d’empathie dans ces systèmes,
Pour prendre des décisions sur des cas d’une dose d’imprévu, et la possibilité de
précis, deux manières de raisonner sont ressentir et jouer avec l’algorithme, sont
possibles : soit l’établissement d’un mo- des pistes que le design peut ouvrir.
“
Cournapeau. La communauté scientifique car l’enjeu n’était pas de faire le logiciel,
Python avait alors besoin de briques mais de répondre à un travail applicatif. Nous
logicielles sur certains thèmes, comme avions la vision d'un logiciel qui soit simple
le machine learning ou le traitement à utiliser, très pragmatique, qui ne réponde
d’image, et c'est ainsi qu’est né Scikit- pas forcément à tous les cas d'usage
learn, le kit scientifique pour faire du possibles, mais qui permette de
machine learning. Entre 2006 et faire bien et simplement, de façon
2010 un autre français, Mathieu efficace, 80 ou 90% d'entre eux. »
26 Brucher, a repris le projet et Et cet état d’esprit a perduré.
l'a fait vivre pendant sa thèse.
Alexandre Gramfort , maître de « Depuis janvier 2010, plusieurs
conférences à Télécom ParisTech autres personnes ont été financées
pendant 5 ans, se souvient. Il était en pour continuer le développement de Scikit-
post-doc à l’INRIA Saclay en janvier learn. » Arrivé à Télécom ParisTech en
2010, et « avec Gaël Varoquaux, Bertrand septembre 2012, Alexandre Gramfort lui
Thirion, Vincent Michel, de l’INRIA, ainsi consacre une fraction de son temps. De-
qu'Olivier Grisel et Fabian Pedregosa, des puis 2016 et dans le cadre d’un contrat
personnes qui avaient pas mal d’expérience industriel dont il est responsable, deux
logicielle dans le monde de Python, nous ingénieurs y travaillent avec lui à plein
nous sommes enfermés dans une salle à temps. Des missions doctorales ont été
Saclay et nous avons commencé à collecter financées par le Center for Data Science
tous les bouts de code qu’on possédait pour de l’Université Paris-Saclay, et des docto-
faire du machine learning, à les assembler rants de l’équipe de statistique du dépar-
dans une bibliothèque, puis à commencer tement Image Données Signal à Télécom
une documentation, écrire des tests, faire ParisTech s’impliquent également. On
de l’intégration continue. La plate-forme compte aujourd’hui plus de 600 contribu-
GitHub n'existait pas encore à l'époque teurs dans le monde entier, et la première
et tout était mis sur Sourceforge. On a publication scientifique rédigée en 2011 a
communiqué dessus assez vite. » été citée plus de 5 000 fois.
Scikit-learn dans l’enseignement, et à Télécom ParisTech
À Télécom ParisTech, tous les enseignements en machine learning aujourd’hui sont faits
en Python. « Je suis un peu responsable de ce mouvement vers Python », explique Alexandre
Gramfort, qui poursuit : « la plupart des enseignements utilisent Scikit-learn, et quand ce
n’est pas le cas, c’est soit parce que les outils ne sont pas encore disponibles dans Scikit-
learn, soit parce que l’on souhaite que les élèves manipulent la donnée par eux-mêmes,
plutôt que d’utiliser des briques toutes faites. Les enseignants-chercheurs de Télécom
ParisTech maîtrisent Scikit-learn, l’utilisent en TP, et s’en servent en cours pour faire des
démonstrations. C’est également utilisé massivement dans toutes les grandes écoles de
Paris, et dans plusieurs universités, y compris à l’international. C’est vraiment un ensemble
d’outils très répandu qu’il est bon de connaître.»
27
L’enseignement par des spécialistes n’est pas la seule raison qui fait de Télécom
ParisTech un centre de gravité pour Scikit-learn. On y croise des core developpers, qui
ont les droits de validation et qui garantissent la bonne évolution de l’outil. « Le Center for
Data Science dont je m’occupe avec d’autres personnes à l’échelle de l’Université P aris-Saclay
pousse à l’utilisation de la data science à travers les disciplines scientifiques expérimentales.
C’est un lieu où les gens qui savent traiter et modéliser des données vont pouvoir rencontrer
ceux qui ont des données et qui ont des problèmes de la vie réelle.» Scikit-learn fait partie de
la boîte à outils de tout data scientist désireux d’être correctement équipé pour explorer
les nombreux pans du monde des données.
scikit-learn.org
Qui utilise Scikit-learn aujourd'hui ?
200 000 utilisateurs viennent chaque mois du monde entier télécharger les outils et les
mises à jour, inspecter la documentation. « Sans nécessairement le dire officiellement, de
nombreuses entreprises nous utilisent, des grandes comme de plus petites. » Les logiciels
et bibliothèques open source sont souvent cités par les entreprises, et les data scientists
sont invités à contribuer à leur développement, et faire de la veille sur ces outils.
Rendre les données visibles
“
Des premières visualisations de données au système de travailler ensemble, en tirant
par Florence Nightingale (page ) et de la profit de ce que chacun fait bien », précise
représentation de la campagne de Russie James Eagan, maître de conférences à
1812-1813 par Charles Joseph Minard, Télécom ParisTech en inte-
aux travaux du statisticien Jacques Ber- ractions homme-machine.
tin et sa sémiologie graphique, puis aux « Il y a des éléments sur la
documents auto-expliquants du designer représentation qui peuvent
Bret Victor en 2011, savoir communiquer faire changer l’interpréta-
des données visuellement pour en révéler tion. La visualisation peut
les ressorts et les expliquer à ses interlo- être aussi un outil pour aider
cuteurs est une discipline à part entière. l’utilisateur à explorer ses don-
nées. Ainsi, si on ne sait pas quel est le mo-
La visualisation de données (data dèle, si on ne sait pas ce qu’on cherche, la
visualisation, dataviz) désigne un visualisation est un outil qui aide à explorer
ensemble de techniques et d’outils et comprendre quand on ne sait pas encore
permettant de mieux comprendre ce qu’on veut chercher ! »
et analyser les données, en les
traitant sous une forme visuelle, La visualisation de données ne s’exprime
28 interactive et graphique. pas que sur des supports fixes et figés.
Manipuler la dynamique d’un ensemble
Un premier objectif est de rendre les de données dans le temps, régler des
données plus intelligibles, plus immé- paramètres pour focaliser sur tel ou tel
diatement accessibles. Il s’agit d’attirer aspect, travailler la donnée de manière
l’attention du lecteur sur les faits sail- interactive, poussent l’imagination un
lants, par un choix judicieux d’organisa- cran plus loin. Hans Rosling, statisticien
tion spatiale, de liaison des éléments, de décédé début 2017, a donné ses lettres
couleurs, de formes, de typographies. de noblesses à cet art. Enfin, aidés par
Une dataviz réussie fera rentrer progres- les techniques de réalité augmentée, et
sivement l’utilisateur dans l’histoire des pilotés par des intelligences artificielles,
données, chaque choix visuel lui en of- il devient possible de plonger au cœur des
frant une nouvelle clé de compréhension. données. « La visualisation de données est
Deuxième objectif, la visualisation explo- une discipline complète», explique James
ratoire permet à l’analyste de naviguer à Eagan, « l’union des statistiques, du design,
travers des ensembles de données multi- de l’informatique, complétées par les
dimensionnels et complexes, les diverses systèmes d’intelligence artificielle, la fouille
représentations graphiques à sa dispo- de données et le machine learning. » Pour
sition lui permettant de saisir les grands Charles Miglietti, cofondateur de la start-
phénomènes et les motifs cachés. « L’un up dataviz Toucan Toco (voir page ), la
des grands enjeux est de construire des data visualisation est tout simplement « le
systèmes qui permettent à l’utilisateur et dernier kilomètre de la donnée. »
Expert Data visualisation
EXPERT DATAVIZ
Le profil d’expert en data visualisation présente deux facettes :
il peut être utilisateur expert d’outils de data visualisation, et
effectuer du reporting et du story telling sur les données, ou
bien développeur front-end et back-end créant des applications de data visualisation
– en intranet, sur le web, sur des applications mobiles et sur papier. Grâce à leur
travail sur les interfaces, les experts en data visualisation permettent également
aux équipes opérationnelles d’y voir plus clair dans leurs données et d’identifier des
pistes d’analyse qui n’apparaîtraient pas de manière aussi évidente à leur simple
lecture. Ce métier demande beaucoup de travail et une grande culture pour choisir
les visualisations les plus pertinentes et les moins susceptibles d’apporter des
biais dans l’interprétation des données. Ces profils peuvent évoluer à terme vers
le métier de data scientist au sens large, dont il est un des rôles.
b+80+1006080
ech Busin
se t
ert i es
s
Ex p
De
é
sign
Curiosit
spirit
1 29
3
le futur du reporting 5
irit
Lea
sp
de
sh er k
ac
r
ip
Créativité H
b+60+800100
Qlik, Microsoft Power BI, Excel…
iz Math
taV s Pour les développeurs web front end : Javascript,
Da
D3.js, Angular.js, Django, html, CSS… les
Bd
ry
C o d er
1
3
5
Out
Da ch
L
ta Ma
D e e pL en équipe, rigueur…
De man of science à scientist
L’origine du mot « scientist
», que l’on comme l’« illumination particulière de l’es-
traduit le plus souvent en français par prit féminin ». « Scientist » est créé à partir
« scientifique », remonte au début du XIXe de Science et Artist. Il reconnaît en Mary
siècle, au Royaume-Uni. Mary Somerville, Somerville et en d’autres scientifiques de
une chercheuse écossaise, y avait rédi- l’époque le génie créateur de l’artiste ca-
gé des livres savants réunissant des do- pable d’établir et de faire
maines jusqu’alors disparates des mathé- apparaître des liens
matiques, de l’astronomie, de la géologie, invisibles pour
de la chimie et de la physique. Son travail le commun des
était si clair et si fluide que ses textes for- mortels, et les
maient le cœur du premier programme traduire de belle
scientifique de l’Université de Cambridge. manière, poétique
parfois, pour toucher
En 1834, son traité On the Connexion of durablement le lecteur.
the Physical Sciences impressionna for- Raconter les découvertes de la science
tement ses pairs. William Whewell, pro- et les rendre moins absconses pour les
fesseur à Cambridge, écrivit un article non initiés, en les communiquant via des
30 élogieux sur Mary Somerville, utilisant images et des émotions ressenties, est un
pour elle le terme « scientist ». Il avait art qui mérite d’être reconnu et exercé.
proposé ce mot l’année précédente à la
British A
ssociation for the Advancement of Mary Somerville fréquentait le cercle in-
Science, à la fois parce que la désignation tellectuel The Analyticals, un groupe de
valant jusqu’alors, « man of science », était scientifiques qui souhaitait réformer et
de plus en plus controversée, et parce professionaliser la science britannique,
que les travaux des scientifiques deve- auquel participait Charles Babbage, l’in-
naient de plus en plus interdisciplinaires. venteur de la machine analytique. Elle lui
Mary Somerville n’était en effet pas sim- présenta Ada Lovelace dont elle était la
plement mathématicienne, astronome mentor. Cette dernière créa le premier
ou chimiste… Elle avait identifié les liens algorithme destiné à être exécuté par une
entre ces différentes disciplines et leurs machine, et contribua à jeter les bases de
méthodes d’exploration scientifique, avait notre informatique moderne.
su les articuler et communiquer cette
vision à ses contemporains de manière Combinant maîtrise des techniques et
élégante. Pour Whewell, il n’était pas suf- des technologies, vision transdisciplinaire
fisant de créer un mot qui ne fasse plus et art de raconter et d’enseigner, tout en
allusion au genre. Il fallait également étant impliquée dans les grands mouve-
traduire cette capacité à synthétiser des ments de son temps, Mary Somerville, la
champs scientifiques alors distincts, une première scientist, devrait être une source
idée rendue possible par ce qu’il décrit d’inspiration pour chaque data scientist.
L’hybridation des compétences,
une évolution de la data science
Si à l’époque de Mary Somerville il était naturel d’évoluer dans
plusieurs disciplines à la fois, et de se nourrir des unes et des autres,
la cybernétique naissante au sortir de la deuxième guerre mondiale
contribue à privilégier des approches mono-disciplinaires, qui
ne seront pas les plus fécondes. Dans le même temps, les
hommes prennent de plus en plus de place dans les métiers de
l’informatique, au point qu’une majorité de femmes aujourd’hui
pensent que coder n’est pas de leur ressort. Cette perte de diversité
de points de vue et des expériences s’est ressentie fortement dans
toute l’aventure de l’intelligence artificielle, et commence à être prise
au sérieux, notamment suite à l’observation que les robots algorithmiques
et mécaniques reproduisent les biais cognitifs de ceux qui les concoivent.
b+80+6010080
transition, où ils vont être sollicités pour faire de la vulgarisation et expliquer au reste
tech Busin de l’entreprise la démarche qu’ils ont adoptée et les
r tise es
s conclusions qu’ils en ont tirées.
pe
Ex
De
é
sign
Curiosit
32 1
3
5
mathématiques, IT, business
irit
Lea
sp
de
sh
er
k
ac
r
ip
Créativité H
b+100+8010060
Profil Formation mathématiques-statistiques ou informatique
iz Math
taV s
L’orientation à dominante IT ou à dominante maths Da
dépend des problématiques de l’entreprise. Sensibilité
Bd
ry
C o d er
1
3
Compétences Méthodes : Analyse de données, 5
Out
Da ch
L
ta Ma
Spark… Qualités : curiosité intellectuelle, capacité D e e pL
d’apprentissage, rigueur, aptitude pour le travail en
équipe, communication…
Des data scientists au quotidien
“
Après avoir obtenu le Mastère Spécialisé® Big Data de Télécom ParisTech, Kim Pellegrin
a intégré une direction des systèmes d’information chez Dassault Systèmes. « Ma mission
consiste à améliorer les outils de traitement de l’information en apportant des
solutions innovantes de machine learning. Cela concerne les moteurs
de recherche, les moteurs de recommandation et les outils de support
métiers. J’interviens en apportant une expertise et en réalisant des
prototypes, l’industrialisation des solutions retenues se faisant avec les
équipes de développement. À la différence de l’approche déterministe
du développement classique, la data science s’inscrit dans une méthode
expérimentale et itérative. Il faut réaliser des prototypes pour pouvoir évaluer
la faisabilité et la valeur du service final. Il est donc important de savoir expliquer aux métiers
ces nouveaux modes opératoires. Être data scientist nécessite une expérience technique et
des connaissances théoriques solides, de prendre du temps pour faire de la veille, d’identifier
des points sur lesquels on est moins à l’aise. C’est un cheminement de plusieurs années, pour
un métier passionnant dont l’apprentissage nécessite un investissement personnel important,
mais c’est un parcours qui est tout à fait réalisable pour un esprit curieux et toujours avide
d’apprendre. C’est un métier d’explorateur qui amène à découvrir et apprendre en permanence. »
Pierre Achaichia, responsable de dix data scientists chez Enedis (lire page ) estime
qu’« au-delà des connaissances purement techniques en modélisation, la méthodologie et les 33
capacités de communication / vulgarisation sont les compétences clés. Un profil idéal de data
scientist répond au moins aux critères suivants : il a été confronté à des problèmes complexes
ayant challengé sa créativité ; il a une expérience dans le développement d’un projet informatique
et a réalisé des travaux faisant appel à de la modélisation statistique ; il peut expliquer clairement
son métier et vulgariser les résultats d’une étude à une personne non initiée. »
Pour Alain Abramatic chez PSA Groupe (lire page ), à la fois data analyst et data scientist,
« le data scientist vient en complément et en support des business developpers pour la
construction de services à forte valeur ajoutée. Notre rôle est d’échanger avec le métier sur ses
besoins d’information ou proposer des opportunités, imaginer comment les données disponibles
peuvent permettre d’y répondre, proposer des axes d’analyse, construire un prototype pour
valider le concept et sa valeur, engager un projet de réalisation. »
Yoann Janvier dirige une équipe de data scientists chez Ipsen (lire page ). Il livre quelques
règles utiles pour être à l’aise dans ce poste multi-forme. « Comprendre comment fonctionne
l’environnement autour de soi. Prendre de la hauteur vis-à-vis des solutions suggérées et garder
un focus sur les attentes business. Mettre en place de la délégation et structurer l’équipe ou le
data lab pour éliminer les tâches répétitives, routinières et sans valeur ajoutée. Se concentrer,
justement, sur les activités à valeur ajoutée. Obtenir rapidement des premiers succès pour
convaincre de la valeur de la piste explorée, et pouvoir communiquer. Travailler pour cela en mode
agile et éviter absolument le mode tunnel. Garder du temps pour l’auto-formation et la veille, ce
sont des conditions de survie à long terme du data scientist. Enfin, éduquer l’environnement sur
ce que la data science peut ou ne peut pas apporter. »
Déployer une charte data
Au Groupe La Poste, les activités de services courrier, colis, de la distribution, de la
banque, de l’assurance, de gestion des bâtiments et véhicules, des télécommunications
et du numérique s’appuient de plus en plus sur des données. Quelles que soient leurs
caractéristiques – données de gestion, données industrielles, données confiées par les
clients particuliers et entreprises, données de partenaires, données d’identification, données
de transaction, données d’interaction aux guichets, avec les postiers, au service client,
sur les automates, sur les sites web et applications mobiles et demain avec des objets
connectés… –, toutes sont nécessaires à l’efficacité des activités postales. Pour conjuguer
confiance et traitement des données, le Groupe La Poste, tiers de confiance, a formalisé ses
engagements à toutes ses parties prenantes, citoyens, clients particuliers, professionnels,
associations et entreprises clientes, fournisseurs, collectivités publiques et actionnaires.
[Extraits de la charte Data du Groupe La Poste, mai 2016]
jo u rs plus de mun
r tou se
r n com
e permettre aux e
vic
t
bi
personnes
or
ngager pour le
App
gratuitement les
ses clients
on né es
de livraison des clients, actions en leur données d’intérêt
adapter nos processus restituant une général dont les
industriels aux information issue coûts techniques
34
sd
la vie moderne
pe
so restent faibles
le
e
r
nn
es l ed
e c o n tr ôl
www.informations-personnelles.org
Protéger les données personnelles
Données de santé, données de localisa- durée de conservation des données, me-
tion, bulletins de salaire dématérialisés, sures de sécurité et de confidentialité, droits
historique des sites que l'on visite, photo- de la personne concernée…) qu’il faut re-
graphies de famille… toutes ces données prendre, et d’autres part les nouveaux prin-
personnelles que l'on confie aux serveurs cipes (protection des mineurs, droit à la por-
circulent et peuvent être analysées et ex- tabilité des données, Privacy by design…) qui
ploitées à des fins utiles, ou plus préoccu- doivent absolument être respectés. L’objec-
pantes. Pour autant, elle ne peuvent pas tif est de renforcer l’effectivité du droit fon-
être réutilisées de n’importe quelle ma- damental à la protection des données per-
nière. Elles sont en effet soumises à des sonnelles, et donc la confiance du citoyen
règles juridiques strictes, qui visent à as- européen dans les nouvelles technologies. »
surer la confiance des utilisateurs et donc
le développement de nouveaux services. En particulier, un nouveau principe est
L’ancienne directive européenne 95/46/ introduit, le principe de responsabili-
EC, transposée en France via la Loi Infor- té (accountability, que l’on peut traduire
matique et Libertés, sera abrogée et rem- par obligation de rendre des comptes).
placée le 25 mai 2018 par un règlement, le « À tout moment le responsable de traite-
Règlement Général sur la Protection des ment des données doit être en mesure de
Données. Celui-ci s’inscrit dans la conti- démontrer qu’il remplit ses obligations lé- 35
nuité de la directive de 1995, tout en ajou- gales, notamment qu’il gère les risques
“
tant de nouvelles obligations. d’atteinte aux données personnelles, et a
mis en place les outils pour en garantir la
protection effective. » Ces éléments de dé-
monstration, constitutifs de la confiance,
peuvent prendre la forme d’une politique
de protection des données, d’un code de
conduite ou d’un mécanisme de certifica-
tion approuvés. Un des grands chantiers
actuels pour les data scientists – et no-
tamment le ou la Délégué.e à la protection
des données, voir page - est donc de se
préparer à ce règlement. « Cette nécessité
« Il est important pour les data scientists de impose notamment de développer une véri-
repérer dans le cadre d’un traitement big table culture Informatique et Libertés et une
data les données juridiquement qualifiées approche transversale. Il s’agit en effet de
de personnelles, pour ensuite se conformer prendre en compte la protection des don-
aux principes qui s’appliquent », souligne nées dès la conception d’un service ou d’un
la maître de conférence en droit Claire produit, d’identifier les risques associés aux
Levallois-Barth. « Il y a d’une part les prin- opérations de traitement et de prendre les
cipes clés déjà connus (finalités, qualité et mesures nécessaires à leur prévention. »
Les banques & assurances bougent
Banques et assurances sont de grandes d'assurances… mais ces données person-
maisons, pour la plupart anciennes, ayant nelles des clients ne doivent pas être ma-
une très large clientèle qui effectue de nipulées sans précautions, et sans suivre
nombreuses transactions journalières. le Règlement général européen sur la
La variété et le volume des données dis- protection des données personnelles.
ponibles y sont significatives, même si
chaque donnée est encore aujourd'hui « Concernant la prédiction du surendette-
relativement petite et structurée. Ces ment, » explique Talel Abdessalem, en-
données, auparavant exploitées avec des seignant-chercheur à Télécom ParisTech,
outils statistiques classiques, le sont au- « les aspects réglementaires poussent les
jourd’hui avec des techniques d’analyse entreprises à faire appel au big data. La
qui ont changé la manière de travailler charte d’inclusion bancaire et de prévention
dans plusieurs types d’activité. du surendettement oblige les banques à es-
sayer de comprendre si leurs clients sont
En matière de prédiction, on sait mieux en train d’aller vers du surendettement,
aujourd'hui détecter les fraudes, par et d’essayer de mettre en place les mé-
l'analyse de comportements atypiques, canismes pour les aider à en sortir. » Les
et identifier les profils client suscep- banques sont obligées d’avoir un tableau
36 tibles d'être insatisfaits et de résilier leur de bord sur leur activité. Elles doivent pro-
compte. Mieux concevoir la tarification duire très rapidement certaines données
des services, notamment dans le domaine et mettre en place les infrastructures
des assurances, ce qui est le métier his- techniques permettant cette réactivité.
torique des actuaires, accélérer la gestion « On demande aux entreprises de plus en
des sinistres et celle des accès à un prêt, plus d’agilité, et pour gagner en agilité il faut
bénéficient également d'une meilleure mettre en place en interne des mécanismes
connaissance et utilisation des données de remontée, de traitement et d’analyse de
disponibles. Sans oublier l'optimisation données quasiment en temps réel qui font
des placements monétaires et la réduc- appel à des technologies big data. »
tion des risques inhérents par une répar-
tition optimale des portefeuilles suggérée Un secteur FinTech à la pointe
par l'analyse des données financières. Manipuler la donnée dans le secteur ban-
cassurance n’est pas un travail austère.
Un secteur poussé par la Pour imaginer les services innovants de
réglementation la banque de demain et se distinguer de
ceux de la concurrence, les données sont
La connaissance et l'analyse des tickets étudiées finement à la recherche de si-
de caisse des clients pourraient égale- gnaux faibles, et les technologies d’ap-
ment ouvrir la porte à de nouveaux ser- prentissage machine, de réalité augmen-
vices : aide à la maîtrise du budget, sug- tée, les objets connectés ou encore les
gestion d'achats, adaptation des primes cryptomonnaies font partie du quotidien.
La donnée connectée
« Les données sont au cœur de la recherche
Société Générale d'innovations de rupture » s’enthousiasme
146 000 salariés Emmanuel Bavière, responsable Centre
d’Innovation chez Société Générale, « Avec mon
50 000 serveurs
équipe de cinq personnes, nous jouons le rôle de
30 Po de données stockées
catalyseur de la banque, pour tester rapidement
des idées à travers des preuves de concept et
répondre aux besoins des entreprises numériques
“
et culturelles tels que le service client 2.0,
l'amélioration de la carte de crédit, le paiement
mobile, l'utilisation de robots, le monde 3D, les
surfaces tactiles, l'intégration collaborative, la
réalité augmentée, l'internet des objets,
ou encore la blockchain… »
re
vie
ba
La banque s’est ainsi posé la question de l’utilisation d’un robot comme Pepper.
Trois cas ont été explorés : lors de forums étudiants et forum professionnels ; dans
l’utilisation interne chez Société Générale ; dans une agence bancaire. « Dans les
b+100+80100
forums, par exemple, les étudiants apportent leur
e c h B u CV, et soudain il y a trop de monde. Le robot capte
se t sin
e rt i es
s les personnes pour les aider, repère les personnes
p
Ex
3
1 données associées seront placées en open data.
5
La même approche est retenue pour les agents
irit
Lea
sh
er
k
ac
r
“
qu’acteur bancaire, nous souhaitons être donnée ? » À longueur de déplacements,
un acteur responsable du traitement des de conférences internes et de modules 39
données de nos clients. Cela peut nous d’e-learning, sa mission est finalement
amener à nous poser des questions de simple: « que chaque collaborateur dans le
réaliser ou pas certains traitements. » Sa groupe devienne data fluent ! »
Présent principalement dans les grandes structures manipulant une grande variété
de données et confrontées à de nombreuses réglementations, le Chief Data Officer
est proche du comité exécutif, sans en faire nécessairement partie. Leurs échanges
b+100+8060100
sont cependant réguliers, pour insuffler la culture des données dans le rythme de
l’entreprise, comme ils le sont avec les directions
te c h B u s métiers pour lesquelles il apporte les solutions
se i ne
ert i ss
p data. Il est parfois rattaché au Chief Digital
Ex
sign
3
1 grande importance dans les organisations.
5
irit
Lea
sp
sh
er
c k
r
ip
Créativité Ha qui se crée et se transforme
b+60+604080100
Excellente connaissance des technologies du big data,
expertise métier. Ce métier étant assez récent, il est iz Math
taV s
également possible d’y parvenir lors d’une évolution Da
de carrière.
Bd
ry
Sto
1
3
5
expérience dans les domaines du management,
Out
Da ch
L
g
évolutions ta Ma
D e e pL
Les missions des CDO
Par leurs postes, dont ils sont souvent les données que nous vous présentons ? » Pour
premiers titulaires, les Chief Data Offi- Michel Lutz, Group Data Officer chez Total,
cer sont confrontés à de très vastes en- un des objectifs sur cette partie de la mis-
sembles de données provenant de tous sion est la mise en production de modèles
les métiers et services de l’entreprise. d’apprentissage statistique et l’améliora-
À l’aide de leurs équipes de data scien- tion des interfaces utilisateur donnant ac-
tists et des équipes métier, ils placent les cès à la donnée et aux modèles.
données au cœur de la stratégie et de la
culture de l’entreprise. Rendre le groupe data driven
« Que chaque collaborateur devienne data
Organiser & manager fluent » comme le dit Emmanuelle Payan
Fabrice Otañao, le Chief Data Officer du chez Société Générale, est en effet le
groupe Accor –92 pays, 4000 hôtels, 1400 graal. L’action du CDO est de diffuser
tableaux de bord, des prévisions à 405 la culture de la donnée dans toutes les
jours–, a eu carte blanche pour réorga- équipes, de créer et de développer des
niser des équipes auparavant dispersées réseaux, de manier les bonnes alchimies
(finances, pour que des équipes et des données
« Il n’y a pas de fiche distribution, émergent les bonnes idées. Chez Accor,
de poste définie IT, base de pour augmenter les revenus, on doit être 41
donnée réfé- plus prédictif, et pour cela élargir les ca-
à l’avance » rentiel, op- pacités data du groupe. Des réseaux de
timisation des prix, data scientists), soit business analysts passés auparavant chez
90 personnes en France et 700 dans le Fabrice Otañao sont mis en place.
monde. Dans un secteur où la chaîne de
distribution est fortement disruptée par Des conseils pour ce poste ?
des acteurs pure player, la donnée est La donnée est agile, c’est
centrale pour réussir la transformation une valeur qui va se diffu-
« Dans nos
digitale : « Ma mission est triple : think, an- ser dans les entreprises, équipes,
ticiper la vision business de demain ; build, qu’il faut aider dans cette la diversité
construire les outils big data ; run, les faire transition culturelle. Pour
tourner en continu et s’assurer que les op- Stéphane Ternot, EDF, il des profils,
timisations trouvées passent à l’échelle in- faut « mettre en œuvre le c’est la clé »
dustrielle. » collaboratif, savoir parta-
ger différents points de vue, et la valeur de la
Évangéliser donnée augmentera. C’est pour cela qu’on
C’est sans doute la mission centrale, monte des plateaux multi-compétences
précisent-ils tous, aller convaincre les autour d’un problème.» Pour Michel Lutz,
clients internes : « Nous avons des tableaux « il ne faut pas avoir peur de l’inconnu ! », et
de bord, on peut à présent travailler mieux, Stéphane Ternot ajoute : « On peut se trom-
qu’est-ce que vous pouvez utiliser de ces per, on fait avec naïveté et bienveillance. »
Head of Data
HEAD OF DATA
b+80+4080
organisent des hackathons internes et mettent en place des data labs.
ech Busin
se t
ert i es
s
p
Ex
De
é
sign
Curiosit
42 1
3
5
avec les métiers de l’entreprise
irit
Lea
sp
de
sh
er
k
ac
r
ip
Créativité H
b+80+608040
L’orientation à dominante IT ou à dominante
mathématiques dépend des enjeux de l’entreprise, iz Math
taV s
de ses problématiques données, et de la taille des Da
équipes.
Bd
ry
Sto
capacités de vulgarisation,
C o d er
1
3
5
aptitude pour le travail en équipe, rigueur,
Out
Da ch
L
g
b+100+604080
ech Busin
se t
ert i es
s
Ex p
De
é
sign
Curiosit
Opérationnels de la donnée et
spirit
1 43
3
des projets orientés données 5
irit
Lea
sp
de
sh er k
ac
r
ip
Créativité H
b+40+6004010080
Selon les entreprises, le profil recherché sera plus ou moins technique. Très bonne
Math connaissance métier, très bonne connaissance
taViz s
Da des enjeux data, forte orientation business
Bd
ry
Sto
C o d er
1
3
5 aptitude pour le travail en équipe, leadership,
Out
Da ch
L
ta Ma
D e e pL Mapreduce…)
Architecte Big Data
ARCITECTE BIG DATA
b+40+6010080
ech Busin
se t
ert i es
s
p
Ex
De
é
sign
Curiosit
Organisateurs et responsables
spirit
44 1
5
3
de la vision d’ensemble
irit
Lea
des données
sp
de
sh
er
c k
r
ip
Créativité Ha
Profil Formation IT
Vision d’ensemble de l’écosystème
b+60+10080402060
technique, forte expertise technique. Bonne
compréhension des enjeux métiers et des iz Math
taV s
problématiques de data science. Ces profils peuvent Da
également être des consultants freelance.
Bd
ry
Sto
1
3
5
Out
Da ch
L
g
ta Ma
D e e pL
Chief Technology Officer
b+80+4080100
ech Busin
se t
ert i es
s
Ex p
De
é
sign
Curiosit
spirit
Apporteurs d’innovation 1 45
3
5
irit
Lea
sp
de
sh er k
ac
r
ip
Créativité H
b+60+80604020
Spécialistes des usages des nouvelles technologies,
Viz Math à la pointe de l’innovation et de la recherche. Une
D ata s
expérience significative dans la direction de
projets informatiques est nécessaire.
Bd
ry
Sto
1
3
5 appétence pour la R&D, compréhension des enjeux
Out
Da ch
L
g
www.epassurances.fr/emba
Expert sécurité
EXPERT SECURITE
b+60+6010080
attaquant pour chercher et repérer les failles de
tech Busin leurs systèmes afin de mieux les contrer.
r tise es
s
pe
Ex
De
é
sign
Curiosit
48 1
3
5
des cyber attaques
irit
Lea
sp
de
sh
er
k
ac
r
ip
Créativité H
b+60+1006040
télécommunications & réseaux, en systèmes
d’information, avec une spécialité ou une iz Math
taV s
dominante sécurité Da
Bd
ry
Sto
communication et pédagogie
C o d er
1
3
5
Out Bi
Da ch
L
g
ta Ma
D e e pL
Data protection officer
b+100+6020100
ech Busin
se t
ert i es
s
Ex p
De
é
sign
Curiosit
spirit
1 49
3
dans le respect des règlements 5
irit
Lea
sp
de
sh er k
ac
r
ip
Créativité H
b+20+600
nouveau poste créé, les profils sont plutôt issus
iz Math d’écoles de commerce ou juristes, avec plusieurs
taV s
Da années d’expérience dans ces domaines.
Bd
ry
Sto
internationale, connaissance
C o d er
1
3
5 et suivi des règlements et des normes,
Out
Da ch
L
g
ta Ma
D e e pL
Libérer l’énergie des données
En ce début de XXIe siècle, la transition optimiser le programme de fonctionnement
énergétique, un des volets de la transi- de ces moyens de production, du pluri-an-
tion écologique, passe par une prise de nuel jusqu’à H-1, à un pas de 30mn. Les
conscience de la crise énergétique et la angles d’analyse sont multiples : temporels,
possibilité de choix éclairés. Les données échéances, fiabilité des données, types de
permettent d’observer et de prédire si- production, valeurs du prix de marché. »
multanément et à toutes les échelles les Dans un premier temps un cluster Ha-
impacts de nos décisions énergétiques, de doop est déployé, où les données sont
nos usages et de nos gestes du quotidien. envoyées en masse avant d’être mobili-
sées. Une plate-forme logicielle est en-
La vision du producteur suite utilisée pour sortir des indicateurs
Stéphane Ternot est un data scientist du de pilotage de ces données. C’est alors
secteur de l’énergie. Entre 2013 et 2015 il une collaboration entre métiers et SI, et
fonde le datalab de GRDF, dont l’un des non plus la seule DSI qui teste les jeux
projets permettra à ce distributeur de de données. « En 2016, l’objectif devient de
mieux cibler, en mode prédictif, des ou- partager les données au plus grand nombre.
vrages potentiellement défaillants sur Il s’agit de faire de la donnée sur les usages
sa chaîne de communication gazière. Il de la donnée. Qui utilise quoi pour faire
50 rejoint ensuite EDF où il développe une quoi ? Qu’est-ce qui apporte le plus de va-
approche similaire au sein de la direction leur ? » Cet outil attire l’attention d’autres
optimisation amont-aval trading, une en- personnes travaillant avec la R&D. Data
tité très opérationnelle de 400 personnes. scientists et consommateurs de données
« Les données que nous traitons sont des se retrouvent autour d’un wikipedia de la
séries temporelles pour l’ensemble des donnée, qui facilite la recherche et indique
moyens de production d’EDF, nucléaire, quelle donnée est utilisée par quel projet.
thermique à flamme, hydraulique… Le tra- Il devient possible de faire des études très
vail de cette direction consiste à élaborer et rapides et d’être très réactif.
Objectif: quantifier
Un mix énergétique
ne se construit pas de
manière isolée. Les
pays échangent entre
eux l’énergie qu’ils
produisent à partir de
sources diverses. Cette
carte, fondée sur des
données publiques
temps réel, permet d’en
visualiser les effets.
www.electricitymap.org
Pour le producteur d’énergie, l’objectif communicants, avec la possibilité pour le
est de mieux comprendre un portefeuille client de suivre sa consommation sur un
client qui évolue. En effet, les change- site Internet, mieux la comprendre et agir
ments de comportements, les possibilités pour la maîtriser.
d’autoconsommation, font que la baisse
globale de la consommation individuelle Pierre Achaichia est responsable de l’ac-
n’est pas uniforme, rendant plus com- tivité data science (dix data scientists),
plexe encore la prévision des moyens à as- rattaché à Pierre Gotelaere, manager de
surer à court et long termes. « Il s’agira de l’activité data & analytics (70 personnes
confirmer ou infirmer des choses cachées, environ, mixant compétences IT, data
d’identifier des singularités signifiantes analysts pour la qualité des données, et
qu’on n’aurait pas vues autrement, de faire les data scientists), pour le système Linky.
des requêtes sur des données bizarres, en « Nos données proviennent du matériel
méthode agile et rapide. » Tout est souvent Linky et de la chaîne communicante Linky.
question d’échelle. À grosse maille géo- Certaines sont structurées, d’autres non. On
graphique s’expriment des moyennes, trouve des données tabulaires classiques,
alors qu’une observation plus fine à che- des données techniques, des données orien-
val sur plusieurs zones fera émerger des tées graphe et des séries temporelles. Ce
dissimilarités invisibles. Disposer de ces sont par exemple les données du déploie-
grands volumes de données sous forme ment, comme la date de changement de
graphique est par ailleurs essentiel. compteur, l’entreprise de pose… Dans tous
les cas, la confidentialité et l’anonymisation 51
La vision du distributeur de ces données sont centrales. » Toutes
Collecter les données et faciliter les chan- ces données permettent à Enedis d’auto-
gements de comportement se fait aussi matiser les processus de supervision du
chez l’habitant. C’est dans cette optique système Linky, par exemple pour faire de
qu’Enedis, qui exploite 95 % du réseau la maintenance prédictive, et développer
de distribution électrique français, est de nouveaux services pour les métiers du
engagé sur un grand projet de remplace- distributeur, comme la détection des inci-
ment des compteurs par des compteurs dents réseau en temps réel.
Dans un premier temps, leur traitement peut être basique et ne demande pas un bagage
avancé de data science. Cela peut prendre la forme de simples statistiques descriptives
(nombre de voyageurs), mais c’est généralement plus complexe, car l’information est
massive. Il faut rapidement des outils de data visualisation pour la rendre intelligible et
permettre de monitorer et analyser le fonctionnement de l’infrastructure. Or, on attend
souvent un peu plus que tout cela : calculer des prédictions pour anticiper les pics
d’affluence par exemple. On souhaite que ces données permettent d’optimiser un certain
nombre de décisions. C’est là que le machine learning intervient. »
l’occasion pour des data scientists aguer- vices privés, la frontière se brouille entre
ris comme pour de futurs professionnels le champ d’intervention des acteurs pu-
d’échanger, de partager des points de vue, blics et privés sur un territoire de données
d’aller sur le terrain en situation et de tes- qui ne sont pas encore un bien commun.
ter de nouvelles techniques et approches.
L’ouverture des données est un appel à Passé par la mission Etalab (voir page )
l’ouverture des esprits. Romain Lacombe fait partie de ces jeunes
entrepreneurs pionniers qui mobilisent
Avec le développement des usages, cer- sur des enjeux de société les données
tains de ces services vont plus loin que publiques et ouvertes, ainsi que celles
leur visée initiale. Waze ne promet plus que chacun de nous peut produire, en
seulement aux conducteurs de trouver s’appuyant sur le développement d’objets
un trajet dégagé. L’application filiale d’Al- connectés et d’applications de visualisa-
phabet aide aussi telle ville à réguler son tion. Début 2017, sa start-up Plume Labs
trafic, telle autre à alimenter ses données a ainsi dévoilé Flow, un capteur personnel
prédictives, elle équipe tel constructeur mobile permettant de mesurer le degré
de capteurs, permet à tel assureur d’ajus- de pollution auquel chacun s’expose chez
ter ses primes en fonction des pratiques soi, à l’extérieur ou dans les transports. Il
de conduite. Sous l’impulsion de la dissé- y avait le quantified self pour mesurer les
“
mination et de la gestion partagée de ces données de son corps, il y a maintenant le
données, et avec l’apparition de data ser- quantified environement.
53
Entrepreneur de la dataviz de data visualisation de
Rendre la ville intelligible à travers des Toucan Toco, qui est née
data visualisations est une nécessité. Ces en 2014. Notre solution
outils permettent également aux aména- est un outil de reporting
geurs de l’espace public de mieux analy- visant à simplifier la com-
ser la performance des dispositifs qu’ils préhension de la donnée par
gèrent. Intégrant huit sources de données les néophytes en entreprise. Aujourd’hui,
distinctes –patrimoine, qualité, audience, mon activité se partage entre le commercial
cibles socio-démo et géo-comportemen- et le conseil en dataviz, le management, et
tales, points d’intérêt et points de vente, le développement et l’architecture de notre
profils consommateurs, bases d’images solution. »
et de textes–, la start-up Toucan Toco a
créé en 2016 une application permettant Intervenant dans les formations big data
à 250 utilisateurs commerciaux et marke- de Télécom ParisTech, Charles Miglietti
ting au sein des équipes JCDecaux d’ac- incarne avec passion deux aspects fonda-
céder à ces données en mobilité. mentaux de la data science : entreprendre
pour aller explorer le monde des données
Son fondateur, Charles Miglietti, est un et en tirer les ressources d’avenir, et sa-
data entrepreneur et un pédagogue de la voir donner la parole à ces données pour
donnée. « J’ai développé et codé le produit qu’elles expriment toutes leurs saveurs.
De l’open data à l’open innovation
Avant de pouvoir faire le story-telling des de personnes, et cherchent ensuite un bu-
données de ses clients, les connecteurs siness model. Certaines le sont aussi par le
de Toucan Toco agrégent les données développement d’outils ayant un impact. »
venant de leurs systèmes d’information
et de leurs bases de données. Des don- Producteurs et consommateurs de don-
nées externes à leurs applications, dis- nées à grande échelle, les services de
ponibles en open data, « comme les don- l’État et les grandes entreprises sont
nées macro-économiques ou la météo qui friands de rencontres avec les étudiants
peuvent influer sur la performance des acti- en data sciences et les start-up, prenant
vités de nos clients, » précise le data entre- des formes diverses comme des hack-
preneur Charles Miglietti, sont également athons, des challenges ponctuels ou à
traitées, enrichissant la base initiale. plus long terme. L’État a ainsi lancé fin
2016 le programme « Entrepreneur d’in-
Ces données ouvertes et les nombreux térêt général », recrutant 10 personnes
outils en logiciel libre sont une des rai- sur 10 mois pour résoudre, grâce aux
sons qui permettent de se lancer rapi- données, des défis d’intérêt général au
dement dans un projet entrepreneurial, y sein d’administrations pionnières.
compris pendant ses études. « L’investis-
54 sement est relativement modéré, » relève De son côté, SNCF met à disposition
Stephan Clémençon, professeur à Télé- nombre de ses données en open data sur
com ParisTech, « une idée de services, éla- un site dédié et animé. Celles et ceux qui
borée à partir d’algorithmes, et des compé- souhaitent prototyper, coder ensemble et
tences intellectuelles suffisent. Les services accéder à des données de transport très
de Cloud permettent d’exploiter des in- riches, comme les horaires planifiés et
frastructures qu’on ne possède pas et qu’on temps réel, les équipements et services en
va simplement intégrer dans le business gare, la régularité des trains, l’accessibi-
model de la start-up. » Le professeur Talel lité des gares, sont régulièrement conviés
Abdessalem ajoute : « Les personnes qui à relever des défis dans des événements.
se lancent dans des start-up big data sont Certains projets fil rouge 2017 du Mastère
motivées par les success stories. Certaines Spécialisé Big Data de Télécom ParisTech
travaillent sur des outils open source, cher- ont d’ailleurs bénéficié de cet accéléra-
chant à développer un outil qui devienne une teur d’innovation au service de la mobilité
référence, utilisé par le plus grand nombre que représente cette initiative.
Télécom ParisTech héberge une spin-off, Score4Biz, qui s’appuie sur des technologies
propriétaires brevetées développées par des équipes de statisticiens et de traitement
big data de l’École. Son objectif : permettre aux entreprises d’améliorer la performance
de leur activité, en répondant à des questions business à fort enjeu, par application de
technologies d’analyse big data aux données des entreprises.
Des start-up de la donnée
L’incubateur de Télécom ParisTech, ParisTech Entrepreneurs, a accueilli en quinze
ans plus de 400 projets innovants du numérique. Beaucoup d’entre eux utilisent les
technologies du big data. Dans l’analyse et le traitement des données : Invenis, Lefty,
Datapred, Linkurious, DCbrain, Predictice. Dans le marketing et le e-commerce :
Botfuel, Adomik, Vigicolis, Catalisio, Beyable. Dans l’industrie et les transports :
iDMog, Safety Line. Dans la santé : Dreamquark. Dans l’innovation et la hight-tech :
Stim, L2 Technologies, Sevenhugs. Dans les services Internet : Ownpage, FocusMatic.
Zoom sur quatre de ces start-up :
www.paristech-entrepreneurs.fr
Data entrepreneur
DATA ENTREPRENEUR
b+100+80100
ech Busin
se t
ert i es
s
p
Ex
De
é
sign
Curiosit
Explorateurs et défricheurs
spirit
56 1
3
5
d’un nouveau monde
irit
Lea
sp
de
sh
er
k
ac
r
ip
Créativité H
L’équipe d’une start-up data réunira tous ces types de profil. Les profils business
sont en charge des business plans et business models (positionnement sur le
marché), la stratégie commerciale, la stratégie marketing / communication.
Les profils techniques sont en charge du développement produit et responsables
techniques.
machinelearningforbigdata.telecom-paristech.fr
Machine learning specialist
MACHINE LEARNING SPECIALIST
b+60+6010080
ech Busin
se t
ert i es
s
p
Ex
De
é
sign
Explorateurs de données
Curiosit
spirit
58
complexes et chercheurs de
1
3
5
irit
Lea
nouvelles pistes
sp
de
sh
er
ck
r
ip
Créativité Ha
b+100+8010060
cognitives, statistiques, mathématiques…
iz Math
taV s
Da
Bd
ry
Sto
pratique
C o d er
1
3
5
Out
Da ch
L
g
b+20+60100
ech Busin
se t
ert i es
s
Ex p
De
é
sign
Curiosit
Inventeurs du futur
spirit
1 59
3
de la data science 5
irit
Lea
sp
de
sh er k
ac
r
ip
Créativité H
b+100+8010060
cognitives, statistiques, mathématiques…
iz Math
taV s
Da
Bd
ry
Sto
transdisciplinarité
C o d er
1
3
5
Out Bi
Da ch
L
g
ta Ma
D e e pL
La Recherche en Data Sciences
Titulaire d’une bourse « Starting grant » Les données étudiées étaient celles des
par le European Research Council (ERC), vi- requêtes d’itinéraires, venant de l’appli-
sant à récompenser des travaux de jeunes cation et du site Transilien, des données
chercheurs et les encourager à construire moins habituelles par rapport aux don-
leur équipe, le chercheur recrute des data nées de transport effectué. L’équipe de
scientists, sur des expertises allant de Maguelonne Chandesris cherchait à dé-
l’extraction de données au développement finir quelle valeur ces données pouvaient
de nouveaux outils de traitement. « C’est avoir, et comment produire du nouveau
très applicatif. Un des défis est de traiter et s’approprier de manière collective ces
des données actuellement non exploitées données complexes et abstraites. L’adop-
car trop sujettes aux signaux parasites, tion d’une démarche d’innovation par le
qui peuvent venir des capteurs comme du design a offert à l’équipe de data scientists
cerveau lui-même. Les médecins ont éga- effectuant ces travaux, dont les résultats
lement besoin de faire de l’exportation non étaient incertains et qui restaient explora-
supervisée, pour faire de la visualisation, toires, plus de liberté pour aborder le su-
pour faire des systèmes prédictifs, extraire jet et choisir le rendu final. De nouvelles
automatiquement des bio marqueurs…» méthodes de travail ont été adoptées.
Une thèse en machine learning
Claire Vernade est doctorante en dernière une grande variété de problèmes en ma-
année de thèse, et une des premières chine learning. En décembre j’ai compris
thésardes de la chaire Machine Learning que ça ne serait pas suffisant, que cela ne
“
for Big Data. Qu’est-ce qui a incité cette me permettrait pas de rentrer dans le fond
diplômée de Télécom ParisTech à pour- des choses. Comme j’avais particulièrement
suivre ses études dans le domaine de la aimé le cours d’apprentissage par renforce-
recherche en machine learning ? ment, j’ai commencé à me renseigner sur
les possibilités de stages et de thèses dans
« Cela a été en fait un ce domaine. Je n’ai pas eu à chercher long-
hasard total pour temps car justement Stephan Clémençon
moi d’atterrir dans était en train de boucler la Chaire Machine
le domaine du ma- Learning for Big Data et m’a proposé d’être
chine learning. J’ai parmi les premiers doctorants. C’était une
toujours été pas- opportunité à prendre, les planètes s’ali-
sionnée par l’idée que gnaient soudain parfaitement, et je n’ai donc
des décisions complexes pas hésité longtemps.
puissent être éclairées par des algorithmes,
particulièrement quand ces décisions vont
64 impliquer beaucoup de contraintes qui de- Une voie inconnue
mandent de prendre en compte beaucoup
de variables. J’ai d’abord commencé par et un monde incroyable
étudier la recherche opérationnelle à Télé-
com ParisTech. Ce sont des méthodes plus Au moment où j’ai pris cette décision, je
théoriques fondées sur des modèles mathé- n’avais absolument aucune idée où me mè-
matiques, des problèmes qui sont ensuite nerait ce choix de parcours. Je ne savais
traités d’un point de vue plus algorithmique. pas trop ce que c’était de faire une thèse,
J’ai pris un cours de machine learning en fin je n’avais pas vraiment envisagé cette op-
d’année et ça a été la révélation. tion avant le MVA donc je m’engageais dans
une voie un peu inconnue. Et trois ans plus
Le traitement statistique / probabilistique tard, je pense que c’était en effet une excel-
de ces mêmes problèmes de décisions –ou lente décision. J’ai découvert un monde in-
disons, des problèmes avec des objectifs croyable, celui de la Recherche académique,
proches– m’a tout de suite séduite. J’ai ra- et de son pendant industriel qui tend à se
pidement pris la décision de faire le Master développer dans le domaine du machine
MVA (Mathématiques / Vision / Apprentis- learning. Ce monde est juste fantastique.
sage de l’ENS Cachan), une formation que Il est fait de gens qui passent leur vie à se
j’ai adorée car j’y ai appris beaucoup de poser des questions souvent très complexes
choses très vite. Le master commence fin et non-triviales et à chercher des solutions
septembre et les cours se terminent fin à ces problèmes tout en se remettant en
mars, ce qui laisse six mois pour traiter question en permanence. Cela m’apporte
beaucoup personnellement et je suis main- vraisons autonomes (sans conducteur ou via
tenant bien plus sereine quant à mon avenir des drones) pour bientôt. Ici, personne ne
et à ma carrière. Je ne sais pas exactement serait choqué de recevoir son repas le soir,
ce que je ferai, mais je suis sûre que ce sera livré par une voiture sans chauffeur… Je ne
avec des gens intelligents et que je conti- sais pas ce que l’on doit en penser, mais
nuerai à apprendre. il est certain que la technologie pour faire
tout cela est loin d’être prête. Ce sont donc
Pourquoi le machine learning est-il un autant de défis technologiques et sociétaux
domaine d’avenir ? pour l’avenir du machine learning.
Les data scientists, les data analysts, les ingénieurs big data et les architectes big
data peuvent devenir des consultants, dès lors qu’ils possèdent les qualités de bonne
communication et bon relationnel, les capacités de synthèse et de vulgarisation, et
l’appétence pour la diversité des métiers de leurs clients.
b+100+10080
ech Busin
se t
ert i es
s
p
le lien entre une compréhension
Ex
De
é
sign
Curiosit
68 1
3
5
technique des données
irit
Lea
sp
et des algorithmes
de
sh
er
c k
r
ip
Créativité Ha
b+80+6080100
iz Math
taV s
Da
Bd
ry
Sto
C o d er
1
3
5
Savoir raconter ce que les données ont à dire
Out
Da ch
L
g
“
Leur vision très large des écosystèmes de la donnée permet aux
consultants data d’apporter leur assistance et savoir-faire, aussi
bien aux équipes de data scientists établies qu’aux entreprises
n’ayant pas ces compétences en interne. Le quotidien de
Denis Oblin est ainsi très varié : « Animations de comités
de direction, ateliers d’émergence de besoin, découverte
métier, codage… les formes d’intervention auprès de
nos clients (grands comptes, PME, start-up…) traduisent
la diversité des situations qu’ils rencontrent, et ce
qu’ils peuvent attendre des données. » Tour à tour data
scientist puis expert métier, il vise à apporter une réponse
opérationnelle. Il alterne pour cela la discussion avec la
« La data n’est data : « coder, tous les jours, tester de nouvelles approches
techniques », et avec les humains que la donnée concerne :
qu’une matière « tout est dans la compréhension du métier ». L’essentiel, et
la différence, ne se joue en effet pas tant dans les packages
69
Denis Oblin identifie les problèmes sur lesquels la donnée peut, ou ne peut pas, aider,
puis manipule ces données. « En 3-4 cycles de production agiles de 15 jours à 3 semaines,
le client progresse dans la formulation de son objectif au même rythme que je progresse
dans la réponse. » Certains cherchent de la prédiction, d’autres veulent un diagnostic
opérationnel. En d’autres termes : veut on prédire l’avenir ou le changer ?
Être consultant data permet également de diffuser la culture de la donnée hors des
domaines les plus courants. Denis Oblin cite cette entreprise de location de matériel
professionnel disposant de plusieurs sites de distribution, recevant 15 000 devis par an,
concrétisés aux deux tiers. « En travaillant ces données, nous les avons considérablement
enrichies jusqu’à une centaine de caractéristiques par devis. Nous avons construit un
score, mis en production, qui annonce avec 90% de performance si le devis va être gagné ou
perdu. » Cette entreprise sans site web profite à plein de la transition numérique.
« Il n’y a pas de petite donnée », conclut cet artisan de la donnée, qui continue
à inventer chaque jour son métier avec son associé et son équipe.
Data journalist
DATA JOURNALIST
b+60+8010060
ech Busin
se t
ert i es
s
p
Ex
De
é
sign
Curiosit
Un journalisme d’enquête
spirit
70 1
3
5
sur le terrain des données
irit
Lea
sp
de
sh
er
k
ac
r
ip
Créativité H
b+60+608020100
iz Math
taV s
Da
Bd
ry
Sto
culture générale
C o d er
1
3
5
Out Bi
Da ch
L
g
ta Ma
D e e pL
Un journalisme qui redonne du sens
« Qui est le prince mouillé de Bel Air ? » La ment été utilisée par la presse, le « jour-
question est posée fin 2015 en Californie, nalisme de données », poussé par le
après la découverte dans les données double mouvement de l’abondance de
publiques du département de l’eau et de données et d’information devenues inex-
l’énergie de Los Angeles qu’une personne tricables, et de la défiance grandissante
résidant dans le quartier chic de Bel Air dans les médias traditionnels, a subi un
avait consommé près de 45 millions de développement important il y a une di-
litres d’eau en un an, dans une région zaine d’année, au point que la plupart
souffrant de fortes sécheresses, et en des rédactions aujourd’hui disposent de
pleine restriction de consommation d’eau. leurs data journalistes. Ceux-ci ont pour
Le fournisseur d’eau ne souhaitant pas mission de plonger dans de larges bases
donner le nom de ce grand consomma- de données pour y collecter, nettoyer, vé-
teur, des citoyens engagés dans la chasse rifier, trier, analyser et croiser les don-
aux gaspilleurs rendent publique l’affaire, nées, puis visualiser et scénariser ce que
et un journaliste commence son enquête ces données ont à raconter. Certains se
dans le LA Times. spécialisent dans le fact-checking, qui
consiste à contrôler la véracité des pro-
Confronté à l’impossibilité de faire le tour pos ou des chiffres avancés par tel ou tel,
de ce quartier huppé, et au refus de divul- tandis que d’autres explorent ces masses 71
gation des noms, il va se tourner vers les de données comme un terrain d’enquête
données accessibles publiquement et les d’un nouveau genre. Tous sont animés par
faire parler. En utilisant des images satel- le souci de la donnée proprement utilisée
lites publiques et des techniques d’ima- pour expliquer la complexité du monde.
gerie spécialisées en reconnaissance
des végétaux – car tous ne consomment Leurs compétences sont celles des data
pas l’eau de la même manière, comme scientists classiques, et leurs outils et
il l’apprendra dans une base de données méthodes, très largement publics, ont fait
scientifiques –, et en croisant le tout avec l’objet de formations ouvertes en ligne qui
les cartographies publiques – bâtiments, sont un premier pas accessible et ludique
adresses… – de manière à relier les par- pour de futurs explorateurs de la don-
celles à leur propriétaire, le journaliste va née. Leur expertise du storytelling et de la
réussir à cerner sept noms potentiels. Il mise en visualisation des informations en
publiera fin 2016 sa méthode, ses sources font également une source d’inspiration
et ses astuces. précieuse pour des data scientists ayant
des données compliquées à mettre en
Renouveler la manière de musique. Les data journalistes, comme
faire du journalisme certains artistes qui créent des œuvres à
partir de données, sont des data scientists
Si l’utilisation de données statistiques spécialisés. Peut-être les premiers d’une
pour appuyer une enquête a régulière- liste de nouveaux métiers à inventer.
Naviguer en données complexes
Si expliquer la complexité du monde et traders ou celui des pilotes de chasse est
redonner du sens aux faits est le quotidien à ce titre symptomatique. La navigation
des data journalistes, découvrir des dans leur environnement de données se
corrélations utiles dans de grands corpus fait la plupart du temps à vue d'aigle, et
de données oblige bien souvent les data arrivent des moments de vérité où il est
scientists à jouer un rôle d'enquêteurs. nécessaire de leur apporter la bonne in-
En attirant leur attention sur telle ou formation, correctement packagée, en
telle donnée et en les étiquetant de provenance directe des données mas-
meta-informations, la combinaison de sives. Il faut alors disposer d'interfaces
systèmes d'intelligence artificielle et beaucoup plus fluides et légères que le
de réalité virtuelle et augmentée leur classique clavier / souris. Ces nouvelles
facilite la tâche. Ces systèmes allègent la interfaces utilisent par exemple le eye
charge cognitive nécessaire pour évoluer tracking pour repérer l'intérêt soudain de
dans des ensembles de données à la l'utilisateur sur une partie du champ d'in-
structure difficile à appréhender, ou pour formations et en améliorer subtilement
naviguer simultanément dans des flux sa compréhension, ou encore les agents
d’informations de différentes natures. conversationnels pour ne pas mobili-
ser les yeux. Les data scientists doivent
72 C'est particulièrement vrai en situation concevoir ces interfaces modernes qui
de stress. Pour Emmanuel Bavière chez augmentent les sens et aident le cerveau
Société Générale (voir page ), le cas des à naviguer dans la donnée complexe.
“
Il n'est dès lors pas étonnant de retrouver dans
les équipes de data scientists des personnes
également impliquées dans la transformation
digitale de l'entreprise.
Deux cas sont envisagés. Le premier consiste, à partir d'un produit existant, à y collecter
des données opérationnelles et à prolonger son cycle de vie . C'est l'exemple de la
maintenance prédictive, qui évite les pannes soudaines non anticipées. Appliquée aux
satellites, les données télémétriques analysées permettent ainsi de détecter des signes de
faiblesse, les pallier, et assurer la continuité de mission. Le deuxième cas est celui où le
modèle écomique ne fonctionne plus et où le produit est en train de disparaître. Il est alors
remplacé par du service dématérialisé, par une offre naissante. Avec l'accord des clients,
des données anonymisées sont collectées. Riches de situations très différentes et croisées
avec des données externes, elles permettent aux data scientists d'imaginer de nouveaux
services, dont certains correspondront parfois à de nouveaux clients.
“
Matt Evans est Digital Transformation Lea- a ainsi déployé sur les lignes d'assem-
der au sein du groupe Airbus. Il y dirige blage des A350 (49 avions livrés en 2016)
le développement et la mise en œuvre un projet dont il est particulièrement fier.
d'une stratégie de données complète pour Sur un tel avion où tous les pro-
l'ensemble du groupe, comprenant blèmes de conception n'ont
l'intégration de données et les plate- jamais été vus auparavant,
formes, les technologies et compé- la recherche rapide de so-
@DrMattEvans
En croisant des images satellitaires de Tous ces acteurs n'ont pas besoin d'être
Spot ou Pléiades avec des données ex- des spécialistes du pixels. Ils veulent des
ternes comme les prévisions météoro- services d'aide à la décision, et la pro-
logiques, l'analyse biochimique de sols duction de données enrichies les leur
et des données sur les pesticides, il est apporte. Les data scientists férus de car-
possible de conseiller les agriculteurs qui tographie et de croisements de données
souhaitent utiliser ces derniers avec par- originaux trouvent chez Airbus Defence
cimonie. Les assureurs en cas de tempête and Space de quoi nourrir leurs passions.
Données externes mobilisées vices à forte valeur ajoutée, ainsi que les
Même avec près de 10 000 aéronefs civils outils nécessaires à leur développement
Airbus volant dans le monde, le volume de (API ouvertes, services de cloud com-
données qui en provient ne suffit pas pour puting). Il s'agit de véritables systèmes
créer le dossier de toute la vie d'un avion. d'exploitation de la donnée – enrichie en
Ces données doivent être croisées avec amont, indexée en temps réel à la sortie
les données opérationnelles et de main- des gros flux satellitaires – fournissant
tenance, et celles issues des usages des de l'information élaborée. Dans ce cadre,
compagnies aériennes. Cette meilleure les infrastructures cloud telles celles de
connaissance de l'utilisation des avions Google ou Amazon sont vite devenues in-
facilite la création des modèles de main- contournables. Les data scientists doivent
tenance prédictive et est partagée avec les savoir maîtriser les outils très spécifiques
compagnies. Concernant l'amélioration du cloud, ainsi que les outils du machine
de l'expérience des passagers, l'anonymi- learning tels TensorFlow ou Caffe. La
sation des données personnelles collec- puissance de calcul de ces infrastruc-
tées est faite avec une grande vigilance. tures facilite notamment des techniques
de « croissance d'algorithmes », pour les-
Savoir maîtriser le cloud quels divers paramétrages peuvent être
Anne Chanié, responsable offres futurs testés dans des temps raisonnables, et
segments sol d'observation – nouvelles des solutions converger en quelques
technologies chez Airbus Defence and heures. Il s'agit également de stocker la
Space, participe à l’élaboration de solu- donnée de manière à en optimiser l'accès, 75
tions de SI Big Data faisant venir les uti- et de concevoir des solutions techniques
lisateurs à la donnée, en leur fournissant et algorithmiques qui soient capables de
une plate-forme où sont proposés des ser- passer à l'échelle.
Comme dans tout CV, il est essentiel de nuellement se former, et c’est valable éga-
faire prendre connaissance d’un par- lement pour les plus jeunes. Les projets
cours académique et professionnel en développés en marge de sa formation et
un seul coup d’œil, et de laisser une de son emploi seront très appréciés, ainsi
“
bonne impression parfois en quelques que la participation à des hackathons, à
secondes. Toutes les sections et infor- des compétitions de type Kaggle. »
mations doivent être immédiatement
identifiables. Maïté Allain, consul- Quatre types de CV de data scientists
tante en recrutement et responsable passent devant les yeux de la recru-
d’Upward Data : « Nous préférons teuse, chacun avec leurs spé-
les CV simples et classiques, en cificités. Les CV des jeunes
une page, avec pour chaque expé- data scientists, ceux qui
rience – datée – mise en avant, une ont une forte connaissance
description rapide de l’entreprise métier et souhaitent se ré-
(titre de la fonction exercée, nom orienter, ceux qui ont utilisé
de l’entité à l’intérieur de l’entreprise, ou développé des algorithmes
domaine d’activité), les problématiques et souhaitent également s’orienter
data qui ont été rencontrées, les outils vers les métiers de la données, et les
78 et les méthodes qui ont été utilisées, et architectes big data qui sont souvent à
les résultats obtenus. Des données chif- part. Ces derniers fournissent en effet
frées et des termes techniques, tant qu’ils des CV plus longs, avec une page de
restent compréhensibles par le recruteur, synthèse, puis plusieurs pages pouvant
peuvent être appréciés. développer leurs expériences.
FICHES PRATIQUES
Pour Matt Evans, groupe Airbus, la re- jourd’hui encore très importante auprès
conversion est un vrai sujet. « De nom- des étudiants et des entreprises. Quand je
breuses personnes sont désireuses de se regarde un dossier de candidature avec les
reconvertir dans les métiers de la donnée. MOOC machine learning ou massive data
Or la formation essentielle reste tout de mining de Stanford, cela me parle et cela
même les mathématiques et les statis- veut dire que la personne s’est intéressée
tiques. Et faire ce choix de reconversion au sujet et l’a creusé. Mais par rapport à
induit un vrai changement de métier. Ces tout ce qui est pratique et professionnali-
personnes, même celles en début de leur sant, la formation en présentiel est un plus
carrière vers 35 ans, doivent bien peser dans une procédure d’embauche. »
tous les tenants et les aboutissants. »
C’est là que réside tout l’intérêt de suivre En donnant sa définition du data scien-
un Certificat d’études spécialisées – et tist, Pierre Gotelaere d’Enedis veut faire
de préparer celui-ci en participant à un vibrer celles et ceux qui s’apprêtent à re-
MOOC – qui permettra à chacun de faire joindre le monde des données en cours
le bilan de ses connaissances et de s’as- de carrière, et qui disposent d’une ma-
surer qu’il mesure bien le chemin à par- turité plus grande : « Les compétences
courir pour devenir data scientist. mathématiques et statistiques restent
bien sûr primordiales. Cependant, le data 79
Ons Jelassi observe que les profils des scientist doit avoir selon moi quatre cordes
personnes voulant suivre le CES « Data supplémentaires à son arc. D’abord, il
Scientist » de Télécom ParisTech sont lui faut avoir une capacité à vulgariser et
de plus en plus solides : « Parmi les communiquer pour emporter l’adhésion
dossiers que je reçois, les étudiants ont autour de ses travaux ; puis une sensibili-
déjà fait des formations par e-learning té business (recherche de valeur), car ces
avant de venir nous voir, ils se forment à profils sont coûteux pour l’entreprise ; un
la programmation Python par eux-même, vernis système d’information pour facili-
et viennent tout de même candidater. Ils ter le lien avec les équipes IT en charge de
ont l’habitude d’utiliser les outils d’ap- l’industrialisation des travaux d’études ; et
prentissage de type MOOC... Le label CES enfin, savoir travailler en mode projet pour
est cependant très utile pour légitimer les avancer avec différents interlocuteurs
connaissances. La certification est au- dans le cadre d’un projet industriel.»
Les fiches pratiques et les fiches métiers de ce livre blanc ont été rédigées en
partenariat avec Upward Data, cabinet de recrutement spécialisé dans les métiers
de la data science et du big data. Résolument pro-candidats, Updward Data
accompagne les postulants sur le long terme, sur un marché en constante évolution,
les guidant vers des entreprises vers lesquelles ils n’avaient pas nécessairement
pensé se tourner, et aidant ces dernières à dénicher des profils encore rares.
Grand groupe ou start-up ?
FICHES PRATIQUES
FICHES PRATIQUES
« La datascience est un art nouveau, ame- « Aujourd’hui, quand on me donne un pro-
né à changer. Ce qu’il faut préparer, c’est blème de machine learning », poursuit le
une formation personnelle continue aux chercheur, « pour en avoir vu un certain
nouvelles technologies à venir », invite nombre, je sais déjà la première chose
Charles Miglietti, fondateur de Toucan à tester avant d’autres et cet avis est en
Toco. « Il y a la possibilité de se former par grande partie fondé sur l’expérience. Il
soi-même car la communauté est ouverte faut certes avoir été à l’école pour com-
et fonctionne beaucoup par data challen- prendre les algorithmes qui existent, leur
ges », renchérit Stephan Clémençon. fonctionnement intime, mais il y a beau-
Il existe aussi une particularité que la coup de choses qui viennent aussi par la
data science partage avec le monde de pratique. »
la recherche. « On s’attend à ce que la re-
cherche soit reproductible, et c’est pareil C’est en ayant traité cent problèmes de
dans le monde des données : si un algo- machine learning que, finalement, on
rithme fonctionne bien, il faut en faire la trouve les dénominateurs communs, les
preuve, et les codes de ces algorithmes algorithmes qui ont le plus de chance de
sont souvent disponibles en open source, marcher, et qu’on peut écarter ceux qui
comme un certain nombre de jeu de don- seraient une très bonne idée, mais mal-
nées de référence. Tout cela est livré à la heureusement inadaptés car le volume 81
communauté. C’est ce qui lui permet d’en de données est trop important.
faire usage et d’appréhender ces outils. Du
matériel est donc disponible et la commu- Relever sans cesse des défis
nauté attend que les usagers fassent un Les data scientists ont la chance et
retour de ces outils et les documentent. » l’obligation de se remettre sans cesse
en question et de se défier. Cette carac-
Une expérience qui se cultive téristique de leur métier est également
Ce qu’on demande à un data scientist, ce qui leur permet de se faire repérer,
à partir de données, d’un problème par- et de faire évoluer leur carrière. Pour
fois mal formulé, éventuellement avec Alexandre Gramfort, Kaggle fournit une
l’aide d’une personne du métier, c’est excellente formation. « Le but de la plate-
« cuisiner les données jusqu’à ce qu’elles forme Kaggle est de réunir les bonnes
se confessent et qu’elles arrivent à faire personnes qui apprennent vite, de façon
ce qu’on leur avait demandé », sourit à pouvoir les identifier et leur proposer
Alexandre Gramfort. « Pour y arriver, il d’évoluer, de faire d’autres mission… Les
faut pas mal d’expérience, il faut s’être data scientists sont nombreux à aller sur
battu pendant des jours sur du traitement Kaggle pour se former, parce qu’il y a des
de données, comprendre quelles sont les forums, parce qu’on y apprend en faisant,
formes des algorithmes, en comprendre la parce que finalement, la science des don-
complexité et les subtilités, quand est-ce nées est une science bien plus expérimen-
qu’ils fonctionnent ou pas… » tale que ce qu’on peut imaginer. »
tre
formes de données // Mise en œuvre de
en
modèles / algorithmes en production //
œuvre des o
Planification de grands projets logiciels
ou de systèmes de données // Mettre
en place les outils technologiques et
la stratégie adaptée pour sécuriser les
ut
données de l’entreprise s& il
des
projets
elopper et
Dév ut
il
ise
Développer / utiliser du hardware //
rd
82 Développer / utiliser des produits qui dépendent
es outils
de l’analyse de données en temps réel //
Développer des tableaux de bord // Collaborer
sur des projets de code // Développement de
prototypes de modèles // Développer / utiliser
des logiciels d’analyse de données
Préparer
l'u
ti
Faire des processus ETL // Définir une
lis
be
soi
connaissances métiers spécifiques // Identifier
ns en donnée
des cas d’usage à résoudre avec l’analyse de
données // Proposer des axes de gestion et
d’analyse de grandes masses de données //
Définir et mettre en œuvre un projet transverse
dans l’entreprise // Prendre en compte au
sd
el
quotidien le modèle économique et la stratégie
'en
treprise
d'équipe
ail
av
Tr
Enseigner / former
tager
par Communiquer avec des d’autres personnes
r &
// Organiser et
personnes extérieures à
e
l’entreprise // Création de
Commun
d’équipe
visualisations // Communiquer
les résultats aux décideurs //
Organiser et synthétiser les
résultats d’une analyse sous
une ou des formes adaptées au
Source :
besoin (rapport, graphique…) et
exploitable
« Tâches quotidiennes des
data scientists », selon le 2016
Datascience salary Survey, par
O’Reilly (983 répondants, 45 pays +
45 États des USA)
Les compétences des data scientists
Le métier de data scientist recouvre des réalités très différentes, et le terme lui-même
de data scientist (voir fiche métier page ) peut décrire, selon les entreprises, des profils
plutôt orientés mathématique ou plutôt orientés informatique. Les métiers présentés
dans ce livret sont tous en évolution, nécessitent un ensemble de qualités et de compé-
tences qui leur sont transverses, et se complètent pour constituer des équipes de data
scientists. Pour chaque métier, nous proposons un profil type, articulé autour des com-
pétences orientés data et des compétences générales ci-dessous. Ces profils peuvent
servir de boussole (radars ci-contre à titre d’exemples) pour choisir son premier métier,
ou évoluer d’un métier à un autre.
84
Crédits
Conception, rédaction, mise en page et suivi de réalisation
Aymeric Poulain Maubant, Nereÿs www.nereys.fr
Suivi de projet et contenus additionnels
Stéphane Menegaldo, Télécom ParisTech
Contenus complémentaires sur les fiches métiers et les fiches pratiques
Maïté Allain, Upward Data
b+80+6010080
ech Busin
se t
ert i es
s
p
Ex
De
é
sign
Curiosit
spirit
1
3
5
irit
Lea
sp
de
sh
er
k
ac
r
ip
Créativité H
85
Compétences sur la donnée en particulier
En science des données : Modélisation statistique ; Machine learning : arbres de
décision, régression logistique, traitement automatique du langage naturel, deep
learning… // En informatique : Langages statistiques : R, Python ; Langages de
programmation compilée : C#, C++, Java… ; Bases de données SQL et NoSQL ;
Frameworks : écosystème big data Hadoop, Spark… // Communication : Outils de
data visualisation : Tableau, QIikview… Storytelling : capacité à raconter les données,
Dataviz : capacité à les mettre sous forme graphique
b+80+601008040
iz Math
taV s
Da
Bd
ry
Sto
d
ils Viz
C o d er
1
3
5
Out Bi
Da ch
L
g
ta Ma
D e e pL
Data Scientists ! Mais qu’est-ce donc ? et pourquoi tant d’enthousiasme ? Si
le livre que vous tenez entre les mains aurait aussi pu s’appeler « Toutes et
tous data scientists ! », c’est parce que les « data », les informations de toutes
natures qui circulent notamment sur Internet, ont pris une place tellement
centrale dans notre quotidien que chacun et chacune d’entre nous est concerné.
Et le point d’exclamation vient souligner l’incroyable effervescence du domaine,
l’engouement passionné des professionnels qui se lancent dans l’exploration de
ce nouveau monde.
Collectées par les objets qui nous entourent, générées en flux continu par
les ordinateurs des multinationales, ou directement mises en ligne par
des millions d’internautes, les données sont au cœur de presque tous les
processus de notre vie moderne : achat en ligne, détection de cyber attaques,
cartes de fidélité, prévision d’épidémies, suggestions de voyages, gestion de
l’énergie, reconnaissance de visages et demain : voiture autonome, médecine
personnalisée, intelligence artificielle… !
Ce livre est une véritable plongée dans les métiers de la donnée, depuis ses
fondements historiques jusqu’à ses perspectives d’un avenir qu’on touche déjà
du doigt. Il s’adresse aux étudiants et futurs étudiants en science des données,
aux spécialistes du domaine, aux entreprises qui souhaitent les recruter, aux
professionnels de la formation et de l’orientation, aux curieux, en bref à tous
ceux qui veulent découvrir et mieux comprend cet univers foisonnant qui nous
offre des possibilités infinies.
ntists
h.fr/datascie
-p aristec
www.t elecom
rique sur :
n numé
rage en versio
vez cet ouv
Retrou
vo lution.fr
w w w . t e lecom-e
stech.f r-
m-pari
ww w.teleco