Vous êtes sur la page 1sur 10

LA TRANSFORMATION

DIGITALE
AU SERVICE
DE L’ENTREPRISE
ET DE L’INDUSTRIE
DU FUTUR

- RECUEIL D’ARTICLES -
" Les technologies digitales "
Zoom sur le big data

Bootcamp IMT- 2019 La transformation digitale au service de l’entreprise et de l’industrie du futur


- Recueil d’articles -
SOMMAIRE

Quèsaco le big data ? P.2

CloudButton met le Big Data à portée de clic P.3/4

Data brokers : intermédiaires de la donnée, maîtres des marchés P.5/6

Le partage de données : un enjeu du secteur agricole P.7

Bootcamp IMT- 2019 La transformation digitale au service de l’entreprise et de l’industrie du futur


- Recueil d’articles - « Les technologies digitales » - Zoom sur le big data, I’M TECH
Quèsaco le Big Data ?
6 mars 2017

À l’occasion du Congrès Big Data Paris se tenant les 6 et 7 mars au Palais des Congrès, Anne-Sophie Taillandier, directrice de TeraLab, fait le
point sur ce concept du numérique qui joue un rôle prépondérant dans la recherche et l’industrie.

Porteur d’une révolution industrielle et concept inhérent à la recherche du 21e siècle. Le big data est un élément clé de l’histoire du stockage de
l’information. Apparu pour la première fois en 1997, ce terme caractérisait dans un premier temps un problème lié à un nombre trop important
de données pour qu’elles ne puissent être traitées par les systèmes informatiques. Ces derniers ont bien évolué depuis transformant ce problème
en opportunité. Nous avons échangé sur ce que représente le big data aujourd’hui avec Anne-Sophie Taillandier, directrice de la plateforme big
data TeraLab.

Quelle définition au big data ?

Anne-Sophie Taillandier : Le big data … grande question. Notre société, les entreprises, les institutions ont produit énormément de données ces
dernières années. En effet, il y a eu une multiplication des sources (capteurs, web, service après-vente…) qui a favorisé cet accroissement. Par
ailleurs, les capacités des ordinateurs se sont décuplées. On est désormais capable de traiter ces gros volumes de données.
Ces données sont très variées, elles peuvent être du texte, des mesures, des images, des vidéos, du son. Elles sont multimodales, c’est-à-dire
qu’elles peuvent être combinées sous plusieurs formes. Elles contiennent donc une information riche et méritent d’être exploitées pour optimiser
des produits/services déjà existants ou inventer de nouvelles approches. Toutefois ce n’est pas la quantité de données qui est important. Parfois
même les plus petits jeux de données peuvent contenir une information très intéressante. Par contre, le big data permet de croiser ces
informations avec des données ouvertes et peut ainsi apporter un éclairage pertinent. Finalement, je préfère parler d’innovation de la donnée
plutôt que de big data, c’est plus pertinent.

Qui sont les principaux acteurs et bénéficiaires du big data ?

AST : Tout le monde est acteur et peut être bénéficiaire du big data. Tous les secteurs de l’industrie (la mobilité, le transport, l’énergie, les
données géo-spatiales, les assurances…) mais aussi le secteur de la santé. Les citoyens sont particulièrement concernés par ce-dernier. La
recherche est par ailleurs un acteur clé dans le big data et un partenaire essentiel pour l’industrie. Les capacités des machines permettent
maintenant l’établissement de nouveaux algorithmes pour de traiter ces grandes quantités de données. Ces algorithmes évoluent vite et les
limites sont sans cesse repoussées.
Les aspects sécurité et gouvernance des données sont aussi très importants. Les objets connectés, par exemple, accumulent des données sur les
utilisateurs. Se pose alors la question de sécurisation de ces informations. Où vont les données ? Mais aussi qu’est-ce que j’ai le droit de faire
avec ? Selon les cas d’usage, une anonymisation peut-être de mise par exemple. Les acteurs du big data sont confrontés à ce genre de questions.

A quoi sert le big data pour la société et les entreprises ?

AST : L’innovation autour de la donnée sert à développer de nouveaux services et produits, et à optimiser ceux qui existent déjà. Par exemple,
prenons le cas de l’automobile. Les véhicules génèrent de données qui vont permettre notamment d’optimiser sa maintenance. Les données
accumulées à partir de plusieurs véhicules peuvent également servir à la fabrication du prochain, donc c’est une aide à la conception. Ces mêmes
données peuvent permettre aussi de proposer de nouveaux services aux passagers, aux professionnels, aux fournisseurs… Un autre domaine
prégnant est celui de la santé. La e-santé favorise un meilleur suivi des soins et peut également faire évoluer les pratiques pour mieux s’adapter
au patient.

Quelles technologies permettent de traiter le big data ?

AST : Les technologies qui permettent de traiter les données sont très variées. Il y a la partie algorithmique comme le machine learning et le deep
learning. On parle aussi d’intelligence artificielle. Puis, il y a aussi toutes les architectures, les frameworks de logiciels open source ou encore les
solutions payantes. Le paysage est très large. Avec le big data, les entreprises ont notamment la possibilité d’ouvrir leurs données sous forme
agrégées pour développer de nouveaux services. Finalement, les technologies se développent très rapidement et influencent les choix
stratégiques des entreprises en permanence.

Bootcamp IMT- 2019 La transformation digitale au service de l’entreprise et de l’industrie du futur 2


- Recueil d’articles - « Les technologies digitales » - Zoom sur le big data, I’M TECH
CloudButton met le Big Data à portée de clic (1/2)
10 octobre 2019

Lancé en janvier 2019 pour une durée de 3 ans, le projet européen H2020 CloudButton entend démocratiser le Big Data en simplifiant
drastiquement le modèle de programmation. Pour cela, il s’appuie sur un service cloud qui dispense le client final de gérer physiquement des
serveurs. Pierre Sutra, chercheur à Télécom SudParis, partenaire de ce projet, nous en dévoile les enjeux.

Quel est l’objectif général de ce projet ?

Pierre Sutra : Les programmes informatiques actuels sont massivement répartis entre plusieurs ordinateurs, et un simple clic peut nécessiter un
calcul de la part de centaines de machines. Construire un tel système est cependant très difficile, car il requiert de lier un grand nombre de
services entre eux. CloudButton a pour objectif de simplifier drastiquement cette façon de programmer.

Comment comptez-vous vous y prendre ?

PS : Pour ce faire, le projet s’appuie sur un concept récent qui va changer profondément les architectures informatiques : les fonctions en tant
que service (en anglais FaaS, Function-as-a-Service). Le FaaS permet d’invoquer à la demande une fonction dans le cloud, comme si on le faisait
sur une machine locale. Comme c’est le cloud, le nombre de fonctions invoquées en parallèle peut être immense, et seule l’utilisation est
facturée — à la milliseconde près. C’est un peu comme si on avait son propre supercalculateur à la demande.

Comment est née l’idée du projet CloudButton ?

PS : L’idée est partie d’une discussion avec des collègues de l’Université espagnole Rovira i Virgili (URV) lors du congrès ICDCS 2017 à Atlanta
(International Conference on Distributed Computing Systems). Nous venions de présenter des travaux sur une couche de stockage pour
programmer les systèmes répartis. Le modèle de programmation était séduisant mais il manquait une application apportant une véritable
rupture technologique.
À ce moment, l’université de Berkeley proposait une approche pour écrire des applications parallèles au-dessus du FaaS. Nous nous sommes dit
qu’il y avait là matière à aller plus loin en utilisant notre système de stockage, avec un but à terme : porter les applications mono-machine vers le
cloud en un minimum d’effort. La métaphore du bouton illustre ce propos.

Qui sont vos partenaires dans ce projet ?

PS : Le consortium réunit cinq partenaires académiques : URV (Tarragone, Espagne), Imperial College (Londres, GB), EMBL (European Molecular
Biology Laboratory, Heidelberg, Allemagne), The Pirbright Institute (Surrey, GB) et l’IMT, ainsi que plusieurs partenaires industriels, dont IBM et
RedHat. Les instituts de génomiques (The Pirbright Institute) et de biologie moléculaire (EMBL) sont les utilisateurs finaux du logiciel. De plus, ils
nous fournissent des cas d’usage et des problématiques nouvelles.

Pouvez-vous donner un exemple de cas d’usage ?

PS : EMBL propose à ses chercheurs associés de consulter une large banque d’images collectées à travers le monde. Ces images sont estampillées
avec des informations relatives à la composition chimique du sujet, en utilisant de l’intelligence artificielle conjointement à l’expertise des
chercheurs de l’EMBL. Pour l’instant, le système nécessite de calculer en amont les estampilles. Un cas d’utilisation de CloudButton est de faire ce
calcul à la demande, par exemple afin de personnaliser les requêtes de l’utilisateur.

En quoi consiste la contribution des chercheurs de Télécom SudParis ?

PS : Télécom SudParis travaille sur la partie stockage des données dans CloudButton. Le but est de concevoir des abstractions pour programmer
qui soient aussi proches que possible de ce qu’offre un langage de programmation classique pour une machine. Bien sûr, ces abstractions se
doivent aussi d’être efficaces pour le modèle d’exécution du FaaS. Ces travaux sont menés notamment en collaboration avec IBM et RedHat.

Quels défis technologiques et scientifiques se présentent à vous ?

PS : Dans l’état actuel, le stockage n’est pas fait pour un calcul massivement parallèle durant un laps de temps court. Le premier défi est donc
l’adaptabilité du stockage au modèle FaaS. Un second défi est de réduire la synchronisation des tâches parallèles au strict minimum dans le but
d’améliorer les performances. Un troisième enjeu est la tolérance aux fautes. Le calcul tournant sur des infrastructures de grandes tailles, celles-
ci sont soumises périodiquement à des erreurs. Cependant, afin d’exposer une interface de programmation simplifiée, les fautes doivent être
masquées.

Bootcamp IMT- 2019 La transformation digitale au service de l’entreprise et de l’industrie du futur 3


- Recueil d’articles - « Les technologies digitales » - Zoom sur le big data, I’M TECH
CloudButton met le Big Data à portée de clic (2/2)
10 octobre 2019

Quelles sont les retombées attendues ?

PS : La réussite d’un projet comme CloudButton peut prendre plusieurs formes. Notre premier objectif est de permettre aux instituts et
entreprises présentes dans le projet de résoudre leurs problématiques de calcul et de volume des données. D’autre part, les logiciels que nous
développons peuvent aussi connaître un succès dans le monde open source. Enfin, nous espérons à travers ce projet résoudre des questions qui
feront sens à moyen terme dans l’architecture des systèmes informatiques.

Quelles sont les prochaines étapes importantes pour ce projet ?

PS : Nous avons rendez-vous avec la commission européenne dans un an pour une évaluation de mi-parcours. Jusqu’à présent, les prototypes et
applications que nous avons développés sont encourageants. À cette date, j’espère que nous aurons la possibilité de montrer une plateforme de
calcul ambitieuse à travers un cas d’utilisation innovant.

Bootcamp IMT- 2019 La transformation digitale au service de l’entreprise et de l’industrie du futur 4


- Recueil d’articles - « Les technologies digitales » - Zoom sur le big data, I’M TECH
Data brokers : intermédiaires de la donnée,
maîtres des marchés (1/2)
8 octobre 2019

Depuis 5 ans, les grands acteurs du numérique ont donné un coup d’accélérateur à l’activité des data brokers. Ils collectent et combinent les
masses de traces laissées en ligne par les consommateurs. Ils les proposent ensuite à des entreprises qu’ils choisissent, pour en tirer un revenu
et surtout jouer avec la concurrence sur les marchés du monde entier. Un nouveau pouvoir considérable très mal compris. Patrick Waelbroeck,
économiste à Télécom Paris, étudie ce phénomène au sein de la chaire Valeurs et politique des informations personnelles qu’il a cofondée.

Les data brokers existent depuis les années 70, et la naissance du marketing direct. Ces intermédiaires de la donnée collectent, trient et
préparent des données de consommateurs pour des entreprises ayant besoin d’analyses de marché. Mais depuis l’arrivée du web, des data
brokers comme Acxiom, Epsilon ou Quantum ont professionnalisé l’activité. À la différence majeure de leurs prédécesseurs, ce sont eux qui
sélectionnent les partenaires à qui ils vendent les informations. Ils emploient des dizaines de milliers de collaborateurs et dépassent parfois le
milliard de dollars de chiffre d’affaires.

Dès 2015, dans un article intitulé The black box society, Franck Pasquale, professeur de droit à l’Université du Maryland, recensait plus de 4 000
data brokers sur un marché de 156 milliards de dollars. En 2014, selon la Federal Trade Commission (FTC) américaine, l’une de ces sociétés
détenait des informations sur 1,4 milliard de transactions réalisées par des consommateurs américains, et plus de 700 milliards d’éléments
agrégés !

Des chiffres vertigineux pourtant déjà anciens, car ces cinq dernières années, les géants du numérique ont décidé de rentrer dans le jeu des data
brokers. Or, « les économistes ne s’intéressent pas au sujet et ne le comprennent pas » déplore Patrick Waelbroeck, professeur d’économie
industrielle et d’économétrie à Télécom Paris. Au sein de la chaire Valeurs et politiques des informations personnelles de l’IMT, il étudie tout
particulièrement l’influence des data brokers sur l’économie globale et sur une juste concurrence.

Une activité très opaque

« Il existe une offre, une demande, des sociétés qui achètent, qui collectent, qui modulent, qui construisent des bases de données et qui les
revendent sous forme de segments de marché à cibler, en fonction des besoins du client » complète le chercheur. Les géants du numérique ont
par ailleurs compris depuis toujours que les données personnelles n’ont que peu de valeur individuellement. L’activité de data broker consiste
ainsi non seulement à les trouver, en ligne ou hors ligne, et à les collecter, mais surtout à les combiner pour décrire des segments de marché de
plus en plus fins.

Il y a 5 ans, la FTC estimait déjà que certains data brokers disposaient de plus de 3 000 catégories d’information sur chaque américain, depuis les
noms, prénoms, adresses, professions, situations familiales, jusqu’aux intentions d’achat de voiture ou aux projets de mariage. Mais
contrairement aux data brokers « natifs », les géants du numérique ne vendent pas directement ces informations à haute valeur ajoutée. Ils les
échangent contre des services, des compensations. Des transactions et une activité dont on ne sait rien, et dont il est impossible aujourd’hui de
mesurer l’importance.

Un outil de manipulation de la concurrence

« Un des messages clés issus de nos recherches, indique Patrick Waelbroeck, c’est que ces data brokers, géants du numérique en particulier, ne
font pas que collecter des données et les revendre ou les échanger. Ils s’en servent pour moduler la concurrence sur les marchés. » Ils ont la
capacité d’identifier très finement un potentiel de marché pour une entreprise ou un produit n’importe où dans le monde ce qui leur donne un
moyen de pression extraordinaire.

« Prenons le cas d’un petit acteur qui dispose d’un monopole sur un marché en Chine, imagine ainsi l’économiste. Un data broker qui dispose d’une
analyse de données indiquant un intérêt du segment de marché de cette entreprise pour un produit Microsoft ou Oracle, par exemple, a le pouvoir
de bouleverser cet espace concurrentiel. Pour des raisons variées — intérêt d’un de ses clients, déstabilisation d’un concurrent… — il peut vendre
ses informations à un des grands éditeurs pour le favoriser ou, au contraire, décider de soutenir l’entreprise chinoise. »

Illustration concrète de ce pouvoir : en 2018, le parlement britannique a révélé des e-mails internes à Facebook. Les échanges laissaient penser
que l’entreprise californienne aurait partagé de façon privilégiée certaines données de marché avec des applications tierces comme Netflix, et en
aurait limité l’accès à de petites comme Vine. « En économie, cela s’appelle un effet de débordement sur d’autres marchés, explique Patrick
Waelbroeck. En vendant plus ou moins de données à des concurrents sur un marché, les data brokers peuvent rendre celui-ci plus ou moins
concurrentiel et choisir d’avantager ou de désavantager tel ou tel acteur. »

Bootcamp IMT- 2019 La transformation digitale au service de l’entreprise et de l’industrie du futur 5


- Recueil d’articles - « Les technologies digitales » - Zoom sur le big data, I’M TECH
Data brokers : intermédiaires de la donnée,
maîtres des marchés (2/2)
8 octobre 2019

Sur un marché classique, le jeu de l’offre et de la demande induirait une forme d’autorégulation naturelle. Le consommateur, en choisissant une
marque plutôt qu’une autre, exercerait un contrepouvoir. Les internautes pourraient faire de même. Mais la mécanique des marchés du
numérique est si difficile à appréhender que les utilisateurs ne le font pas. Si très régulièrement, des usagers quittent ainsi Facebook pour qu’il ne
porte plus atteinte à leur vie privée, il est peu probable qu’ils en fassent autant parce que le réseau social fausse le jeu de la concurrence en
vendant leurs données.

Imaginer une neutralité des data ?

« Un des messages importants de notre chaire, c’est le constat de méconnaissance totale de l’influence des data brokers, poursuit Patrick
Waelbroeck. Personne ne réfléchit encore à cette question de manipulation des jeux de concurrence par les data brokers. Pas même les
régulateurs. Pourtant, pour contrer ce phénomène, il serait possible de s’inspirer de dispositifs existants. » La neutralité du Net, par exemple, qui
permet en théorie à tous d’avoir le même accès à tous les services en ligne, pourrait inspirer une neutralité de la donnée. Elle empêcherait que
certains data brokers ou acteurs du numérique décident de fournir leurs analyses de données de façon privilégiée à certaines entreprises plutôt
qu’à d’autres.

À lire sur IMTech Quèsaco la neutralité du Net ?

Autre source d’inspiration pour la régulation, le marché des ressources naturelles. Certaines d’entre elles sont considérées comme des biens
communs. Si un nombre limité de personnes seulement ont accès à une ressource naturelle, le jeu de la concurrence est faussé et un refus de
transaction commerciale peut être sanctionné. Il existe enfin un dispositif équivalent dans le droit de la propriété intellectuelle qui pourrait
s’appliquer aux données. Certains brevets, indispensables à l’exploitation d’un standard, sont considérés comme des matières premières et
protégés. Les entreprises qui détiennent ces « brevets essentiels » sont contraints par la réglementation d’octroyer une licence d’usage à tous
ceux qui le souhaitent, à un tarif raisonnable et non discriminatoire.

Regarder les fusions-acquisitions du numérique à l’aune de la valeur des données

En attendant la régulation, la méconnaissance du phénomène des data brokers par les autorités de la concurrence entraîne des dommages
collatéraux particulièrement dangereux. Inconscientes de la réelle valeur de certaines fusions-acquisitions, comme celles entre Google et
DoubleClick, WhatsApp et Facebook, ou Microsoft et LinkedIn, les autorités de la concurrence appliquent une analyse classique de marché.

Elles considèrent que les deux entreprises appartiennent à des marchés différents : la messagerie instantanée pour WhatsApp et le réseau social
pour Facebook, par exemple, et en concluent en général qu’elles n’auraient pas plus de pouvoir de marché en joignant leurs forces que chacune
isolément. « C’est totalement faux ! s’insurge Patrick Waelbroeck. Elles sont bel et bien sur le même secteur : celui de l’intermédiation de la
donnée. Après leur rapprochement, tous ces duos ont d’ailleurs fusionné leurs bases de données d’utilisateurs et augmenté leur fréquentation. »

« Il faut regarder le numérique avec de nouvelles lunettes, conclut le chercheur. Il est indispensable que tous, économistes, régulateurs,
politiques, citoyens, comprennent cette nouvelle économie de la donnée, et son pouvoir considérable sur les marchés et la concurrence. D’autant
qu’à terme, toutes les entreprises seront des data brokers. Y compris les plus traditionnelles d’entre elles. Et celles qui n’y parviendront pas
pourraient bien disparaître. »
Article rédigé par Emmanuelle Bouyeux, pour I’MTech

Bootcamp IMT- 2019 La transformation digitale au service de l’entreprise et de l’industrie du futur 6


- Recueil d’articles - « Les technologies digitales » - Zoom sur le big data, I’M TECH
Le partage de données : un enjeu du secteur agricole
26 septembre 2019

L’agriculture est un des secteurs les plus concernés par la transition numérique, de par le volume de données dont il dispose. Mais pour que le
domaine puisse profiter pleinement de leur potentiel, il faut qu’il parvienne à trouver un modèle économique robuste du partage de ces
données. Anne-Sophie Taillandier, directrice de TeraLab — la plateforme big data et IA de l’IMT — présente en cinq réponses les défis
numériques dans ce secteur.

À quel point la question des données est-elle importante pour le secteur de l’agriculture ?

Anne-Sophie Taillandier : C’est l’un des secteurs qui a le plus de données, et ce depuis le plus longtemps. Elles proviennent des outils utilisés par
les agriculteurs, des coopératives agricoles, des opérations de distribution, jusqu’à la frontière avec le secteur agroalimentaire qui suit. On
retrouve donc des données à toutes les étapes. C’est un domaine extrêmement compétitif, donc les enjeux économiques autour de l’utilisation
des données sont énormes.

Comment expliquer cette grande quantité de données dans le secteur ?

AST : L’agriculture utilise des capteurs depuis longtemps. Les premiers systèmes IoT (Internet of Things ou Internet des objets) étaient consacrés à
la récolte de données météo, et ont donc rapidement trouvé un usage dans l’agriculture pour la prévision. Les tracteurs sont également des
véhicules à l’état de l’art en matière d’intelligence. Ils font partie des premiers véhicules autonomes. Des exploitations utilisent les drones pour
surveiller les parcelles. L’agriculture de précision se base sur l’imagerie satellite pour optimiser les récoltes tout en utilisant le moins de
ressources possible. Du côté de l’élevage, les infrastructures ont également de nombreuses données de qualité et de santé des bêtes. Et tout cela
ne concerne que la partie production.

Quels sont les défis liés aux données auxquels fait face l’agriculture ?

AST : La question délicate est de savoir qui a accès à quelles données et dans quel contexte. Ce sont des problématiques de partage de données
qui se retrouvent dans d’autres secteurs, mais avec des verrous scientifiques qui sont propres à l’agriculture. Les données sont hétérogènes : elles
proviennent de satellites, de capteurs au sol, d’outils mécaniques, des informations sur les marchés… Elles se présentent sous la forme de textes,
d’images et de mesures. Il faut parvenir à faire parler toutes ces données entre elles. Et une fois qu’on y est parvenu, il faut faire en sorte que
chaque acteur du secteur en tire quelque chose, en accédant à un niveau d’agrégation des données qui n’outrepasse pas ce que les autres
acteurs veulent mettre à disposition.

Comment convaincre les propriétaires des données de les partager ?

AST : Il faut que tout le monde trouve un modèle économique qui le satisfasse. Par exemple, un supermarché connaît très bien ses volumes de
ventes, il a ses propres usines de transformation, il a différentes qualités de produits. Ce qui l’intéresse, c’est d’avoir des données des abattoirs
sur la qualité des produits. De la même façon, les éleveurs sont intéressés par des prévisions de vente des différentes qualités de viande pour
mieux optimiser leurs prix. Il faut donc trouver des modèles économiques vertueux comme cela pour motiver les parties prenantes. En parallèle,
il faut aussi mener un travail d’évangélisation pour comprendre que le partage des données n’est pas qu’un coût. L’éleveur ou l’agriculteur ne doit
pas passer des heures chaque jour à rentrer des données sans comprendre où est son intérêt.

Quel rôle la recherche peut-elle jouer là-dedans ? Que peut apporter une plateforme comme TeraLab ?

AST : Nous permettons justement de faire la preuve de concept de modèles économiques et d’envisager les retours sur investissement possibles.
Cela permet de lever des freins naturels au partage de données dans ce domaine. Quand on teste, on voit où est la valeur pour chacun et quels
sont les outils qui apportent la confiance entre les acteurs — ce qui est important si on veut que les choses se passent bien en aval du travail de
recherche. Et puis nous amenons avec l’IMT toutes les compétences numériques derrière en infrastructure et traitement des données.
En savoir + sur Teralab, la plateforme big data et IA de l’IMT.

Bootcamp IMT- 2019 La transformation digitale au service de l’entreprise et de l’industrie du futur 7


- Recueil d’articles - « Les technologies digitales » - Zoom sur le big data, I’M TECH

Vous aimerez peut-être aussi