Vous êtes sur la page 1sur 4

Titre : Rencontre avec Antoinette Rouvroy : la data et les algorithmes ; gouvernementalité

algorithmique et idéologie des big data


Intervenante : Antoinette Rouvroy
Lieu : Bruxelles
Date : février 2018
Durée : 16 35 min
Visualiser la vidéo
Licence de la transcription : Verbatim
Illustration : capture d'écran de la vidéo
NB : transcription réalisée par nos soins, fidèle aux propos des intervenant·e·s mais rendant le
discours fluide.
Les positions exprimées sont celles des personnes qui interviennent et ne rejoignent pas
nécessairement celles de l'April, qui ne sera en aucun cas tenue responsable de leurs propos.

Description
Antoinette Rouvroy docteur en sciences juridiques et chercheuse qualifiée du FNRS [Fonds de la
recherche scientifique], Université de Namur. Elle développe le concept de gouvernementalité
algorithmique qui tend à expliciter la manière dont les algorithmes imposent une gestion des sociétés
sur la base des données qui s'échappent des individus.
Un entretien filmé par Thomas Gouritin, journaliste et créateur de la chaîne Regards Connectés.

Transcription

Biais et représentation du réel


La prévention des biais des algorithmes est une sorte d’obsession contemporaine, mais qui est liée
précisément aux ambitions propagées par l’idéologie technique des big data du fait que les big data,
en fait, nous dispenseraient de la représentation. Or, en tant qu’êtres humains, nous n’avons accès
au monde qu’à travers la représentation que nous nous en faisons, c’est-à-dire qu’à travers nos biais.
Les biais ne sont pas nécessairement absolument quelque chose à abattre ou à vouloir combattre
absolument. L’idée qu’il serait possible de supprimer tous les biais et de réellement avoir accès au
monde lui-même, directement, est une idée qui est complètement fausse.
Comme cette idée de post-vérité est dans une certaine mesure aussi une idée un peu fausse, dans
la mesure où on n’a jamais eu accès à la vérité. Ce n’est pas qu’avant on avait accès à la vérité et
le domaine des big data ne vont pas nous donner un accès tout à fait objectif au réel tel qu'il est. Le
monde nous restera toujours mystérieux quel que soit le raffinement des algorithmes à travers
lesquels on va essayer de l’explorer.
Cela étant dit, il y a des biais qui sont identifiables, qui ne sont pas nécessairement négatifs, qui
peuvent l’être, mais objectiver, tenter d’objectiver ou, en tout cas, nommer les biais c’est quelque
chose d’assez important si on veut pouvoir opérer une critique, une constestabilité ou une auditabilité
des processus algorithmiques.
Premièrement, les biais sont déjà dans le monde physique qui est enregistré sous forme de données.
L’idéologie technique des big data prétend enregistrer passivement le monde tel qu’il est, mais il ne
l’objective pas. C’est-à-dire qu’en transcrivant le monde sous forme de données on ne le purifie pas
du même coup de tous les rapports de pouvoir, les rapports de domination, les rapports de force qui
font que l’état de fait est ce qu’il est. Or, les données transcrivent l’état de fait tel qu’il est sans en
transcrire les conditions.
C’est-à-dire que quand on transcrit le monde physique sous une forme de données — d’ailleurs c’est
même bien souvent une obligation si on ne veut pas tomber sous le coup de l’application des régimes
de protection des données à caractère personnel, ce qui est assez coûteux pour une entreprise, par
exemple — eh bien on est obligé d’anonymiser. Anonymiser ça veut dire aussi désindexer,
décontextualiser, c’est-à-dire oublier, rendre les données amnésiques de leur source, amnésiques de
leurs conditions de production. En rendant les données amnésiques de leurs conditions de production,
on les fait apparaître comme des faits neutres, des pures présences ; Derrida parle à cet égard de
présence sans existence. C’est-à-dire qu’on ne peut plus rattacher les données à un référentiel
originaire par rapport auquel on pourrait évaluer leur validité. Donc déjà là il y a une sorte de divorce,
si vous voulez, d’avec l’idée même d’une possibilité de critique par la neutralisation ou la
naturalisation de l’état de fait par la transcription sous forme de données.
Ça c’est un premier biais. Ce biais-là est difficile à combattre, il est difficilement curable à moins
d’exiger toujours la possibilité de pouvoir accéder à la source de la donnée.
Là se pose toute une question d’éditorialisation des corpus, etc., mais alors on ne pourra plus adhérer
à l’idéologie technique des big data qui dit qu’on peut se passer de théorie. On perd quand même
tout ce qui a fait un peu le buzz autour de ces big data, mais c’est une voie absolument intéressante
et je pense qu’il faut en revenir à ça dans une certaine mesure.
Deuxième type de biais, il tient aux métriques des algorithmes. Quand un algorithme analyse des
données, il va accorder un certain poids — je caricature un peu — à certains types de données, un
autre poids à d’autres types de données qui proviennent de telle région du monde numérisé ou de
telle région de l’univers numérisé. Ces métriques sont décidées. Elles ont été décidées par des
ingénieurs en fonction d’objectifs qui ne sont pas toujours très explicités. On pourrait exiger
l’explicitation de ces objectifs, c’est ce qu’on appelle la fonction objective d’un algorithme. Expliciter
pourquoi on donne plus de poids à tel type de données qu’à tel autre. C’est une manière de rendre
l’algorithme non pas transparent mais de rendre les intentions ou la fonction d’algorithme
transparente.

Big data, causalité et corrélation


Il y a quand même toute une série de mouvements qui vont dans le sens d’une revendication ou de
demandes de plus grande transparence des algorithmes ou une auditabilité ou une intelligibilité ou
une interprétabilité des algorithmes. Il y a des travaux plutôt dans le domaine technique pour rendre
les algorithmes auditables, etc. On peut le faire dans une certaine mesure, une mesure qui est un
peu limitée par les perspectives d’auto-apprentissage justement. Quand vous avez des algorithmes
qui deviennent auto-apprenants ça veut dire aussi qu’ils s’émancipent progressivement des
programmations qui leur ont été inculquées.
On parle d’apprentissage supervisé. Lorsqu’il s’agit d’apprentissage supervisé les ingénieurs gardent
la main sur les jeux de données qu’ils introduisent en entrée, sur les jeux de données qu’ils corrigent
pour obtenir le résultat souhaité, etc. Donc là ça reste quelque chose d’assez métrisable.
Quand on parle d’apprentissage non-supervisé dans ce cas-là les algorithmes apprennent d’eux-
mêmes en fonction des données auxquelles ils sont exposés. Larry Lessig disait Code is Law, « Le
code est la loi », là, finalement, ce n’est même plus le code qui est la loi, ce sont les données, ce
sont les données qui enseignent : les données enseignent à l’algorithme. Là, la logique algorithmique
devient aussi compliquée et à la limite imprévisible que le monde physique lui-même, que la
sauvagerie des faits. Donc ces résultats sont aussi assez imprévisibles, ce qui est intéressant en soi,
aussi. Je ne condamne pas du tout les algorithmes, ils peuvent être très intéressants dans la mesure
où ils sont équipés, justement, d’une sorte de curiosité automatique, c’est-à-dire que les algorithmes
n’ont pas tous les biais que nous avons.
Nous avons des biais perceptuels qui sont liés au fait que nous avons un corps qui est situé dans
l’espace et, par exemple, notre champ de vision est borné, donc nous avons toujours un point de
vue. Ce point de vue détermine ce qui nous est perceptible, ce qui nous est intelligible, ce qui nous
est interprétable.
L’algorithme, par contre, lui vit dans un espace tout autre. Son mode d’existence est complètement
différent du nôtre. Il peut voir de façon simultanée ou percevoir ou enregistrer ou calculer, mettre
en corrélation des points de données qui sont très éloignés les uns des autres dans l’espace, dont
les sources sont très éloignées dans l’espace. L’algorithme, si vous voulez, se meut dans un univers
tout autre et peut percevoir des choses qui nous seraient complètement imperceptibles. Donc les
algorithmes peuvent être très intéressants dans la mesure où ils font parler le monde, y compris le
monde social, d’une manière tout autre que nous en tant qu’êtres humains, avec des points de vue
situés, sommes capables de le faire parler. Ça peut être intéressant pour rendre visibles certaines
portions du réel qui resteraient sinon inaccessibles, mais ça peut être dangereux aussi dans la mesure
où on se suffit, où on se satisferait de la seule corrélation. C’est-à-dire que si on se satisfait de la
seule détection automatisée, automatique, de corrélation dans des quantités massives de données,
le risque est grand d’interpréter les résultats de façon erronée, c’est-à-dire de penser qu’il peut y
avoir des causalités sous-jacentes à des corrélations qui sont détectées entre, par exemple, des
données qui ne sont en fait que des bruits. Ça a été démontré mathématiquement notamment par
Giuseppe Longo, le mathématicien. Il dit, finalement, que plus les quantités de données s’accroissent,
plus statistiquement vous avez des risques de produire des spurius correlations, c’est-à-dire des
corrélations abusives entre des choses qui sont corrélées, mais c’est le pur résultat du hasard, c’est-
à-dire que la corrélation ne signifie en fait rien, elle n’est donc pas opérationnelle.
En plus vous avez des risques d’erreur d’interprétation des corrélations mêmes. C’est-à-dire que si
vous détectez dans un grand ensemble de données que les points A et B se trouvent fréquemment
coprésents, vous allez dire qu’il y a une corrélation relativement forte ; dès que A bouge B bouge
aussi, donc vous dites qu’il y a une corrélation forte. Mais cette corrélation peut s’interpréter de
diverses manières, soit elle s’interprète en disant que c’est A qui cause B, soit on peut dire que c’est
B qui cause A, soit c’est C, qu’on n‘a pas aperçu, qui est la cause des deux, qui est la cause de A et
B. Donc vous voyez ! Il y a des cas dans lesquels recourir à des algorithmes et à cette logique de
corrélation plutôt que d’essayer de trouver la causalité et de comprendre réellement le monde dans
lequel on vit peut-être très utile, peut économiser du temps, de l’argent, nous permettre d’avoir un
rapport plus granulaire, moins sélectif au monde, donc ça peut être très intéressant. Mais il est des
cas dans lesquels se satisfaire de la corrélation est contraire à la plus élémentaire prudence. Je pense
par exemple à la black box medecine qui est en train de se développer aujourd’hui dans laquelle,
finalement, on fait des essais cliniques non plus en recrutant des participants, des sujets humains,
mais en faisant des pures simulations sur des bases de données, des masses de données massives
évidemment parce qu’on a énormément de données de santé, c’est le secteur des big data qui croit
le plus rapidement aujourd’hui, donc c’est très intéressant. Mais si on ne soucie pas de la causalité,
c’est-à-dire des mécanismes physiques qui causent les phénomènes pathologiques, on risque fort, si
on en arrive à faire de la prescription de certaines alternatives thérapeutiques à des personnes
concrètes, à des personnes en chair et en os, d’aboutir à des risques assez substantiels d’effets
secondaires potentiellement dangereux.
Vous voyez qu’il y a des cas dans lesquels on peut se satisfaire d’une pure logique d’optimisation
fondée sur de la corrélation. Il y a des cas dans lesquels c’est insuffisant.
Les cas dans lesquels c’est insuffisant, même dans ces cas-là, il n’est pas nécessairement indiqué de
se priver totalement des algorithmes. Les algorithmes peuvent être une première indication. La
difficulté, dans ce cas-là, c’est ne pas conférer à la prédiction ou à la recommandation algorithmique
une force normative qu’elle ne doit pas avoir. C’est-à-dire qu’elle doit réellement laisser la place pour
une délibération humaine, pour qu’on puisse prendre en compte les éléments non-numérisés, non-
numérisables qui sont notamment l’interprétation que les gens peuvent faire de ce qui leur est arrivé
de faire de leur propre comportement, de leur propres intentions, etc., rendre compte de soi-même.

Gouvernementalité algorithmique
Je dirais, pour faire simple, que c’est un mode de gouvernement qui est nourri essentiellement par
des données numériques, donc c’est une modélisation du monde, du monde social, qui est fondée
plutôt sur des données quantifiables, sur les sortes de phéromones numériques qui surgissent, qui
se collectent en temps réel ou qui prolifèrent au niveau du monde physique plutôt que sur des normes
sociales, politiques, idéologiques préétablies. Donc c’est une sorte de gouvernement qui a des
prétentions à une sorte d’immanence. C’est comme si c’était le réel qui se gouvernait lui-même à
travers les données. Les données qui, dans cette idéologie des big data, une idéologie technique
des big data, passe pour être, en quelque sorte, le langage des choses elles-mêmes, donc qui
prétendent nous dispenser de toute interprétation, de toute transcription. C’est comme si c’était le
monde qui parlait spontanément à travers les données.
Je disais que c’est un mode de gouvernement qui est nourri essentiellement de données, on parle
même de données brutes. Quand on dit « données brutes », ça paraît encore un peu plus spontané,
alors que les données brutes sont toujours produites et les données ne sont pas des faits, elles sont
toujours des effets, des rapports de force, de domination, de situations qu’on n’a pas changées alors
qu’on aurait pu les changer. Donc il y a une sorte de naturalisation ou de neutralisation des faits qui
en passe par cette transcription du monde physique sous une forme numérique, fragmentée,
décontextualisée, désindexée, anonymisée, donc la fabrication des données brutes. Donc nourri
essentiellement de données brutes.
Ce qui change, se fondant plutôt sur des données sur la détection de patterns ou de modèles, c’est-
à-dire la détection de corrélations au sein de quantités massives de données, plutôt que sur des
catégories qui correspondent à des groupements humains socialement éprouvés.
Plutôt que de gouverner les gens en fonction de leur appartenance par exemple à un groupe ethnique
déterminé, à une tranche d’âge déterminée ou à une catégorie socioprofessionnelle déterminée, eh
bien on va les gouverner, c’est-à-dire qu’on va personnaliser les interactions gouvernementales, les
interactions sécuritaires, les interactions commerciales qu’on peut avoir avec eux à travers la
détection de leur profil – profil de consommateur, profil de fraudeur potentiel, profil de terroriste
potentiel. Donc on voit là aussi un glissement. Ce ne sont plus non seulement les données qui
comptent, les données numérisées qui comptent, mais en plus il y a un glissement. La cible de cette
forme de gouvernement n’est plus l’actualité, mais c’est la potentialité, ce dont les corps sont
capables, ce dont les gens sont capables, etc.
On voit bien, finalement, un profil ce n’est personne, ce n’est personne actuellement. Un profil c’est
une sorte d’espace spéculatif qui désigne des opportunités et des risques dont les formes de vie,
impersonnelles, sont porteuses.
Ce mode de gouvernement paraît à la fois très objectif dans le sens où, précisément, il n’en passe
plus par les catégories prédéterminées, idéologiquement marquées, toujours politiquement
débattables, les catégories préétablies, mais se désintéresse complètement de ces catégories et se
désintéresse aussi de qui sont les gens. En fait, c’est un mode de gouvernement qui ne gouverne
plus les individus en les individualisant, en les identifiant, en les traquant personnellement. C’est
pour ça que la notion de données personnelles dans ce mode de gouvernement perd un peu en
pertinence au profit de données anonymes qui sont corrélables avec d’autres données anonymes de
façon à former des profils de comportement. Ce mode de gouvernement se désintéresse à la fois des
individus et à la fois des groupements dans lesquels ils se situent et des groupements qui sont
signifiants pour eux.
Finalement ce désintérêt à la fois pour la singularité des vies et pour leur inscription dans des
contextes collectifs, c’est ce qui confère à ce mode de gouvernement à la fois une aura d’impartialité
très grande mais aussi une sorte d’incontestabilité, une très grande difficulté qu’on peut avoir à
contester des décisions qui sont prises sur base de détection d’opportunités et de risques, c’est-à-
dire de personnes en fait.