Vous êtes sur la page 1sur 36

COMMENT DÉCRIRE LES TECHNOLOGIES D’APPRENTISSAGE

ARTIFICIEL ?
Le cas des machines à prédire

Jean-Sébastien Vayre

La Découverte | « Réseaux »

2018/5 n° 211 | pages 69 à 104


ISSN 0751-7971
ISBN 9782348040689
Article disponible en ligne à l'adresse :
--------------------------------------------------------------------------------------------------------------------
Document téléchargé depuis www.cairn.info - - - 132.247.249.253 - 05/12/2019 22:02 - © La Découverte

Document téléchargé depuis www.cairn.info - - - 132.247.249.253 - 05/12/2019 22:02 - © La Découverte


https://www.cairn.info/revue-reseaux-2018-5-page-69.htm
--------------------------------------------------------------------------------------------------------------------

Distribution électronique Cairn.info pour La Découverte.


© La Découverte. Tous droits réservés pour tous pays.

La reproduction ou représentation de cet article, notamment par photocopie, n'est autorisée que dans les
limites des conditions générales d'utilisation du site ou, le cas échéant, des conditions générales de la
licence souscrite par votre établissement. Toute autre reproduction ou représentation, en tout ou partie,
sous quelque forme et de quelque manière que ce soit, est interdite sauf accord préalable et écrit de
l'éditeur, en dehors des cas prévus par la législation en vigueur en France. Il est précisé que son stockage
dans une base de données est également interdit.

Powered by TCPDF (www.tcpdf.org)


COMMENT DÉCRIRE LES
TECHNOLOGIES
D’APPRENTISSAGE ARTIFICIEL ?

Le cas des machines à prédire

Jean-Sébastien VAYRE
Document téléchargé depuis www.cairn.info - - - 132.247.249.253 - 05/12/2019 22:02 - © La Découverte

Document téléchargé depuis www.cairn.info - - - 132.247.249.253 - 05/12/2019 22:02 - © La Découverte

DOI: 10.3917/res.211.0069
A
vec le développement des innovations réalisées dans les domaines du
recueil, du stockage et du traitement des données numériques (cf. le
mouvement big data), les algorithmes prédictifs sont placés au cœur
de ce gigantesque système d’information que composent les Technologies de
l’Information et de la Communication (TIC). Ces machines, souvent quali-
fiées d’intelligentes, jouent aujourd’hui un rôle central dans la production et
la régulation des informations que les humains communiquent par le biais
des outils numériques. Ce rôle est d’ailleurs tellement central qu’à la suite
d’Antoinette Rouvroy et de Thomas Berns (2013), un certain nombre de cher-
cheurs en Sciences Humaines et Sociales (SHS) utilisent la notion de gou-
vernementalité algorithmique pour le désigner. Une des difficultés majeures
que peuvent rencontrer ces chercheurs est alors que le fonctionnement des
Document téléchargé depuis www.cairn.info - - - 132.247.249.253 - 05/12/2019 22:02 - © La Découverte

Document téléchargé depuis www.cairn.info - - - 132.247.249.253 - 05/12/2019 22:02 - © La Découverte


machines prédictives qui font exister la gouvernementalité algorithmique est
souvent très obscur : les technologies d’apprentissage artificiel qui composent
ces machines sont généralement de véritables boîtes noires (Cardon, 2015).
Comment les chercheurs en SHS pourraient-ils donc étudier les formes de
pouvoir exercées par la gouvernementalité algorithmique dans de telles condi-
tions ? Le principal objectif de cette contribution est d’étudier les discours
des concepteurs de manière à saisir comment ils essaient de fabriquer des
machines susceptibles de produire des prédictions pertinentes aux yeux des
professionnels qui les intègrent dans leurs organisations. Ce faisant, nous pro-
poserons différents outils de description de la conception de ces machines qui
permettent l’identification et la compréhension des normativités que recouvre
leur développement au sein des collectifs sociotechniques.

En référence à la « sociologie orientée programme » défendue par Cécile


Méadel et Guillaume Sire, cet article a pour finalité de fournir un ensemble
de notions facilitant l’observation « des coulisses du travail d’élaboration
des programmes, [des] entrailles de la production du code » (2017, p. 27)
qui constituent les machines à prédire. D’une manière générale, nos tra-
vaux se situent au croisement de ceux de Lev Manovich (2001) et d’Adrian
Mackenzie (2006) qui ont joué un rôle important dans le développement des
études des logiciels (i.e., les software studies ; Méadel et Sire, 2017). À la
suite de Lev Manovich, nous mobiliserons des termes propres aux sciences
72 Réseaux n° 211/2018

informatiques afin de rendre compte des « opérations caractéristiques [de ces]


médias programmables » (2001, p. 48) que sont les technologies d’apprentis-
sage artificiel. Afin d’éviter de participer à la réification du phénomène social
qu’est la conception d’une machine prédictive, nous prendrons toutefois cer-
taines distances avec l’approche formaliste de Lev Manovich (2001). Dans
le sens des études menées par Adrian Mackenzie (2006), les outils que nous
proposerons pour décrire les activités de fabrication des technologies d’ap-
prentissage artificiel seront également issus des sciences sociales. À l’ins-
tar de Matthew Fuller (2008) qui, sans rejeter les approches formalistes de
Lev Manovich (2001) et culturelles d’Adrian Mackenzie (2006), a proposé
une autre perspective dite matérialiste (Méadel et Sire, 2017), celle que nous
exposons dans cet article a pour objet de rendre visible la manière dont les
machines à prédire sont encastrées dans le faisceau de relations qui associe
les acteurs qui les conçoivent, ceux qui les implémentent au sein de leur orga-
nisation et ceux qui les utilisent durant leurs activités de travail, ou encore, de
consommation.
Document téléchargé depuis www.cairn.info - - - 132.247.249.253 - 05/12/2019 22:02 - © La Découverte

Document téléchargé depuis www.cairn.info - - - 132.247.249.253 - 05/12/2019 22:02 - © La Découverte


Comme le suggère le titre de cette contribution, l’approche que nous expo-
sons dans cet article constitue plus exactement un prolongement des études
menées par Madeleine Akrich (1987, 1989). À nos yeux, un des apports les
plus considérables de ces travaux est qu’ils exposent un appareillage concep-
tuel aussi élégant que pertinent pour décrire les dimensions sociale, cognitive
d’un objet technique et permettre ainsi la compréhension du pouvoir qu’il
exerce ou, si l’on préfère, de son agentivité (cf. Pickering, 1995). Rappelons
que pour Madeleine Akrich (1987, 1989), toute conception fait l’objet d’un
travail de script. Ce dernier se décompose en un triple mouvement de descrip-
tion, d’inscription et de prescription. En résumé, lors de la phase de descrip-
tion, les acteurs engagés dans la conception d’un objet technique construisent
collectivement des représentations sur ce dernier ainsi que sur l’environne-
ment à l’intérieur duquel il doit s’insérer. Une fois cette description réalisée,
ces mêmes acteurs la matérialisent durant la phase d’inscription, qui corres-
pond à celle de la fabrication concrète de l’objet. Dès lors qu’elles sont cris-
tallisées dans la matérialité de l’objet, les représentations qui sous-tendent
cette description peuvent jouer leurs rôles de prescriptions : elles composent
des scenarii d’usage que doivent interpréter les utilisateurs. Les outils de des-
cription des activités de conception des technologies d’apprentissage artificiel
que nous présentons en suivant ont alors pour objet de permettre la com-
préhension des phases de description et d’inscription qui caractérisent leurs
fabrications.
Comment décrire les technologies d’apprentissage artificiel ? 73

Outre sa finalité méthodologique, cet article a également un autre but qui, plus
théorique, peut être présenté comme suit : à partir d’un ensemble d’observa-
tions et d’entretiens portant sur la conception de machines à prédire appli-
qué à la gestion de problèmes économiques, il vise à nuancer l’hypothèse
selon laquelle ces technologies participent à instituer une nouvelle forme
de rationalité a-normative (Rouvroy et Berns, 2013). Nos travaux montrent
que les machines prédictives, comme tout autre objet technique (cf. Akrich,
1987, 1989), sont porteuses de normativités. À l’instar de l’algorithme pré-
dictif élaboré dans le cadre de Predpol (cf. Benbouzid, 2017), les technolo-
gies d’apprentissage artificiel que nous avons étudiées encapsulent un ordre
moral. Dans le sens des études menées par Antoinette Rouvroy et Thomas
Berns (2013), nous soutiendrons toutefois que cet ordre est effectivement bien
différent de celui que recouvre la gouvernementalité statistique étudiée par
Alain Desrosières (1993) : il ne renvoie pas aux normativités « globales » qui
sont sous-jacentes aux catégories statistiques traditionnelles et qui permettent
à la société de se penser et de se projeter dans son ensemble (Cardon, 2015).
Il n’en reste pas moins que cette gouvernementalité algorithmique que font
Document téléchargé depuis www.cairn.info - - - 132.247.249.253 - 05/12/2019 22:02 - © La Découverte

Document téléchargé depuis www.cairn.info - - - 132.247.249.253 - 05/12/2019 22:02 - © La Découverte


exister les machines à prédire ne peut pas être considérée comme strictement
a-normative. En référence aux travaux de Sylvain Parasie et d’Éric Dagiral
(2017), les technologies d’apprentissage artificiel encapsulent bel et bien un
ordre moral qui est par contre plutôt de type « local » : si ces dernières per-
mettent l’institution de ce que nous appellerons un pluralisme prédictif qui
comporte un caractère a-normatif, celui-ci n’en reste pas moins cadré algo-
rithmiquement par les concepteurs et les implémenteurs qui les développent.
Le deuxième objectif de cette contribution est ainsi de souligner que la
conception de ce cadre est une façon de prêter à la machine les connaissances
métier, et donc les formes de normativité qui y sont associées, afin de garantir
la pertinence des apprentissages qu’elles réalisent.

Pour atteindre les finalités méthodologique et théorique que nous venons


d’exposer, nous proposons de développer notre argumentation à partir du
problème empirique qui suit : comment est construit le besoin de fabriquer
une machine prédictive ? Comment une telle technologie est-elle conçue ? Et
comment l’efficacité de son fonctionnement est-elle évaluée ?

Pour répondre à ces questions, nous organiserons nos propos en cinq sections.
Dans la première, nous définirons ce que nous désignons par machine à pré-
dire, puis nous exposerons brièvement les matériaux d’enquête sur lesquels
reposera la suite de nos propos. Les trois sections suivantes nous permettront
74 Réseaux n° 211/2018

de rendre compte des activités de cadrage des environnements d’apprentis-


sage, de traitement et politique qui permettent aux machines de réaliser leurs
prédictions. Le but de ces trois parties sera alors de fournir un ensemble de
concepts pour décrire et comprendre comment, par le biais des activités de
cadrage susmentionnées, les humains « socialisent » les algorithmes prédic-
tifs afin de leur conférer un sens, c’est-à-dire d’orienter normativement leur
autonomie de fonctionnement. Dans la cinquième partie, nous mettrons en
avant que ces activités de cadrage recouvrent in fine un mouvement explora-
toire et itératif d’identification et de formalisation des connaissances métier
qui sont nécessaires à l’organisation du problème d’apprentissage que doit
résoudre toute machine prédictive. Nous soulignerons en conclusion que, si
les technologies d’apprentissage artificiel développées par les professionnels
interrogés contribuent à l’instauration d’un pluralisme prédictif qui n’est pas
dénué de tout intérêt, elles participent par contre à l’institution d’une écono-
mie politique qui n’est ni très originale ni très élégante.

DES MACHINES À PRÉDIRE


Document téléchargé depuis www.cairn.info - - - 132.247.249.253 - 05/12/2019 22:02 - © La Découverte

Document téléchargé depuis www.cairn.info - - - 132.247.249.253 - 05/12/2019 22:02 - © La Découverte


Qu’est-ce qu’une machine à prédire ? D’une manière générale, nous pouvons
dire que c’est un automate ou, si l’on préfère, un agent artificiel, qui réalise
des projections statistiques à partir d’un ensemble de données d’observation
plus ou moins important. Par exemple, la technique de la régression linéaire,
une fois intégrée au sein d’un système informatique adapté, peut être consi-
dérée comme une machine à prédire. Antoine Cornuéjols et Laurent Miclet
(2010) considèrent en effet cet outil statistique comme une des plus anciennes
techniques d’apprentissage artificiel, et donc, de prédiction1. À partir d’un
échantillon de données quantitatives noté (x, y), qui est généralement repré-
senté sur un plan à deux axes (x en abscisse et y en ordonnée), il est possible
de tracer la droite f(x) permettant d’identifier et de comprendre la relation
qui existe entre les deux variables x et y, mais aussi, de prédire l’état de y en
fonction de celui de x. Plus concrètement, si x représente, par exemple, le
revenu d’un consommateur et y la part relative de ce revenu qui est accordée
aux dépenses alimentaires, la régression linéaire peut permettre de prédire
que plus le revenu d’un consommateur augmente et plus la part relative de ce
revenu qui est dédiée aux dépenses alimentaires diminue. Autrement dit, en

1.  Car, si les systèmes d’apprentissage artificiel n’ont pas toujours pour fonction de permettre
la compréhension des phénomènes que représentent les données qu’ils traitent, ils ont par
contre souvent pour finalité d’autoriser leur prédiction.
Comment décrire les technologies d’apprentissage artificiel ? 75

référence aux travaux de Michel Callon (2017), les machines à prédire for-
ment des agences de calcul matérielles qui recueillent et traitent des données
numériques de façon à effectuer des prédictions qui, du moins dans le cas des
organisations, doivent être utiles à la gestion des affaires.

Pour examiner les activités de conception de ces machines à prédire, nous


avons effectué, de 2012 à 2015, une « ethnographie multi-située » (Marcus,
1995) qui nous a permis de recueillir les matériaux présentés dans l’annexe 1.
De manière générale, ces matériaux montrent que les activités de fabrication
d’une machine prédictive se décomposent en trois groupes. Aussi, dans les
sections qui suivent, nous allons voir comment chacun de ces groupes consiste
à élaborer les cadres à l’intérieur desquels le système produit ses prédictions.
Dans le sens des travaux de Gilbert Simondon (1989), notre objectif sera par
là même de mettre en lumière comment l’existence de ces technologies n’est
pas que matérielle, mais aussi culturelle : les machines prédictives que nous
avons étudiées réalisent des calculs selon des mécanismes cognitifs qui sont
produits par des collectifs humains et qui sont, par voie de conséquence, ani-
Document téléchargé depuis www.cairn.info - - - 132.247.249.253 - 05/12/2019 22:02 - © La Découverte

Document téléchargé depuis www.cairn.info - - - 132.247.249.253 - 05/12/2019 22:02 - © La Découverte


més par les institutions que ces derniers font exister.

CADRER L’ENVIRONNEMENT D’APPRENTISSAGE

Du point de vue des activités de conception d’une machine prédictive, un des


premiers cadrages à être élaborés est celui de l’environnement d’apprentis-
sage. Ce cadrage a pour but de déterminer, sur le plan cognitif, la relation que
le système entretient avec les données qui composent son espace d’apprentis-
sage. La réalisation de ce cadrage renvoie à deux grands ensembles d’activi-
tés : celles consistant à recueillir les observables que forment les données et
celles destinées à régler les points de vue de la machine, c’est-à-dire à struc-
turer les données recueillies de façon à orienter son apprentissage en fonction
du problème de prédiction qu’elle doit résoudre.

Quel recueil de données ?

Pour les professionnels qui les utilisent, les big data sont l’ensemble des don-
nées numériques que constituent celles disponibles sur Internet, celles que
produisent les organisations durant leurs activités quotidiennes, ainsi que les
données d’archives qui ont fait l’objet d’une numérisation (Ollion et Boelaert,
2015). Les données massives qui permettent aujourd’hui aux machines
76 Réseaux n° 211/2018

d’apprendre à prédire le futur forment de cette manière des données hété-


rogènes qui sont recueillies de multiples façons. Ces données peuvent être
représentées en trois grandes catégories qui offrent à ces technologies trois
types de points de vue sur les phénomènes qu’elles doivent prédire. La pre-
mière catégorie est celle des données sociodémographiques que les organi-
sations recueillent sur leurs clients, notamment par le biais des progiciels de
gestion. Par exemple, à travers ce que les professionnels appellent le Customer
Relationship Management (CRM), les systèmes de fidélisation permettent
d’enregistrer systématiquement l’état civil, le prénom, le nom, l’adresse,
le numéro de téléphone ou la date de naissance des clients (Barrey, 2004 ;
Coll, 2014). La deuxième catégorie de données massives est celle des don-
nées comportementales qui sont recueillies durant les usages que les consom-
mateurs font des technologies numériques (e.g., un site d’e-commerce, un
compteur intelligent, ou encore, un automate de service). Ces données doivent
permettre à la machine prédictive de quantifier les usages que les utilisateurs
font de ces dispositifs, ou encore, l’attention qu’ils accordent aux produits
et/ou aux services qui leur sont proposés (Cardon, 2015 ; Kessous, 2012). Il
Document téléchargé depuis www.cairn.info - - - 132.247.249.253 - 05/12/2019 22:02 - © La Découverte

Document téléchargé depuis www.cairn.info - - - 132.247.249.253 - 05/12/2019 22:02 - © La Découverte


s’agit, par exemple, d’un historique de navigation, de consommation énergé-
tique, d’une évaluation textuelle, numérique d’un produit ou d’un service. La
troisième catégorie est celle des données environnementales. Celles-ci sont
recueillies de façon à renseigner les situations à l’intérieur desquelles sont
produites les données comportementales. Par exemple, les données environ-
nementales peuvent indiquer la composition des espaces numériques traver-
sés par les consommateurs (i.e., les pages d’un site Internet), ou encore, par le
biais des open data, les infrastructures socio-matérielles des environnements
physiques au sein desquels ils réalisent leurs activités de navigation (e.g., les
équipements d’une gare ferroviaire).

Étant donnée la grande diversité de données que forment les big data, ces der-
nières permettent aux technologies d’apprentissage artificiel de réaliser ce que
nous pourrions appeler, en référence aux travaux de Jean-Michel Berthelot
(1990), un pluralisme prédictif2. Grâce aux données sociodémographiques,

2.  Rappelons que Jean-Michel Berthelot (1990) a développé la notion de pluralisme explicatif
pour montrer qu’il existe, dans le champ de la sociologie, plusieurs modes d’intelligibilité qui
éclairent, chacun à leur façon, des processus spécifiques du monde social. L’auteur propose
ainsi un plaidoyer pour le pluralisme explicatif en soutenant que le raisonnement sociologique
ne se réduit pas à se positionner au sein d’une suite d’oppositions (e.g., holisme versus
individualisme, ou encore, déterminisme versus actionnisme), mais à mettre en relation des
éléments selon divers schèmes d’intelligibilité. Précisons toutefois que, dans le cas des machines
Comment décrire les technologies d’apprentissage artificiel ? 77

ces systèmes peuvent évaluer, lors de leurs apprentissages, si les catégories


sociales traditionnelles jouent oui ou non un rôle important dans la réalisa-
tion des phénomènes qu’ils doivent prédire. Les données comportementales
et environnementales leur permettent alors d’adopter une posture moins struc-
turaliste et plus interactionniste dans la mesure où elles leur offrent la possi-
bilité d’évaluer, cette fois-ci, le poids des représentations, des pratiques et des
cadres situationnels dans le déroulement des phénomènes que ces technolo-
gies doivent anticiper. Aussi, compte tenu du fait que les big data autorisent
différentes granularités d’enregistrement des données comportementales et
environnementales, les machines qui les traitent peuvent apprendre à pré-
dire l’avenir selon des points de vue qui sont pluriels. Les données massives
rendent ainsi possible, a minima jusqu’à un certain point, la variation automa-
tique de ce que l’on appelle en sciences sociales les échelles d’analyses, c’est-
à-dire les instruments cognitifs qui permettent de saisir la masse, la durée
et la généralité qui forment les trois dimensions des phénomènes sociaux
(Grossetti, 2006).
Document téléchargé depuis www.cairn.info - - - 132.247.249.253 - 05/12/2019 22:02 - © La Découverte

Document téléchargé depuis www.cairn.info - - - 132.247.249.253 - 05/12/2019 22:02 - © La Découverte


En d’autres termes, les machines prédictives n’ayant aucun a priori sur l’im-
portance qui doit être accordée aux données sociodémographiques, compor-
tementales et environnementales, les big data leur permettent d’apprendre à
prédire le futur en systématisant la mise à l’épreuve des perspectives qui sont
associées à chaque catégorie de données. C’est d’ailleurs en vertu de ce plura-
lisme prédictif que certains spécialistes pensent que ces technologies ne véhi-
culent aucune forme de normativité. Comme nous l’avons dit en introduction,
nous allons toutefois montrer que l’hypothèse selon laquelle les machines
prédictives, une fois associées aux big data, instaurent une gouvernementalité
algorithmique de type a-normatif (cf. Rouvroy et Berns, 2013), ne tient pas
complètement. Car, si ces systèmes sont aujourd’hui dotés d’une capacité à
prédire des avenirs de façon plurielle, ce pluralisme renvoie à un travail infé-
rentiel qui fait l’objet d’une préparation. Nous soutiendrons par là même que
cette préparation peut être comprise comme une manière de produire la socia-
lisation algorithmique des machines dans le sens où elle consiste à cadrer leur
autonomie de calcul dans le but de garantir leur pertinence et d’assurer leur
intégration au sein des organisations.

prédictives qui nous intéressent ici, il ne s’agit en rien de mettre en œuvre le raisonnement
sociologique tel que le décrit Jean-Michel Berthelot (1990). Pour autant, la capacité de ces
technologies à articuler différents points de vue sur les réalités qu’elles doivent prédire rappelle
certains aspects du pluralisme que soutient l’auteur.
78 Réseaux n° 211/2018

Régler les points de vue

La préparation du travail inférentiel que doit mettre en œuvre une machine


prédictive commence par une phase de structuration des données recueillies.
Cette phase est élaborée dans l’objectif de régler les points de vue que la
machine porte sur les phénomènes qu’elle doit prédire. Elle recouvre quatre
ensembles d’activités qui sont : la visualisation des données ; le nettoyage des
données ; la création de variables ; l’ajout et la sélection de variables.

Comme l’illustre l’extrait d’entretien exposé ci-dessous, la visualisation des


données est une étape importante de la phase de leur structuration car c’est
elle qui permet au concepteur de se faire une première représentation de l’en-
vironnement numérique à l’intérieur duquel la machine va réaliser ses appren-
tissages. Suite à notre demande d’explicitation des activités de conception
qu’il a effectuées dans les domaines de la publicité personnalisée et de la
maintenance prédictive, Ghislain (cf. E_04 ; annexe 1, figure 2) nous dit en
effet que :
Document téléchargé depuis www.cairn.info - - - 132.247.249.253 - 05/12/2019 22:02 - © La Découverte

Document téléchargé depuis www.cairn.info - - - 132.247.249.253 - 05/12/2019 22:02 - © La Découverte


« Ce qui est très important, c’est, déjà, de visualiser avant même de commen-
cer l’exercice des données [i.e., le travail de structuration des données] pour
comprendre un petit peu la gueule qu’elles vont avoir » (Ghislain).

À l’instar de Ghislain, Samuel (cf. E_08 ; annexe 1, figure 2), qui a égale-


ment travaillé sur plusieurs projets de conception de technologies prédictives,
considère la visualisation des données comme une manière d’explorer l’envi-
ronnement à l’intérieur duquel la machine va réaliser ses apprentissages. Un
des objectifs de cette étape est alors d’aider l’implémenteur, c’est-à-dire le
groupe d’acteurs qui intègre le système au sein de son organisation, à mieux
comprendre et définir les grandes trames du problème qu’il veut résoudre
grâce à ce dispositif. Autrement dit, la phase de visualisation des données est
une façon d’aider l’implémenteur à saisir et à formaliser l’« intention » qui
motive son souhait d’intégrer la machine prédictive au sein de son entreprise.
Par exemple, lors d’un projet consistant à développer, pour une grande insti-
tution financière publique, une machine capable de prédire l’acceptation d’un
brevet par l’Office Européen des Brevets (OEB), Samuel a pris un certain
temps pour visualiser les données et faire progressivement émerger l’intention
du problème qui y était associé. Ceci lui a permis de repérer que ce problème
pouvait être décomposé en deux dimensions. La première recouvrait l’en-
semble des éléments définissant la composition des brevets. La seconde ren-
voyait à l’ensemble des critères qui régissaient leur acceptation. Samuel s’est
Comment décrire les technologies d’apprentissage artificiel ? 79

alors renseigné, auprès de l’institution financière en question et de l’OEB, sur


ces deux dimensions. Il a de cette manière pu mieux saisir la réalité que repré-
sentait le jeu de données dont il disposait. Compte tenu du fait que l’objectif
de l’implémenteur était de prédire la réussite des demandes de brevet, Samuel
a commencé par sélectionner ceux qui étaient déjà approuvés afin de pouvoir
les examiner. Il a ensuite mobilisé différents outils de visualisation de façon
à élaborer divers graphes et tableaux en essayant d’établir des liens avec les
connaissances qu’il avait jusqu’ici pu développer sur le sujet, notamment à
l’aide des informations qu’avaient bien souhaité lui fournir l’implémenteur
et l’OEB.

Comme le souligne Adrian (cf. E_09 ; annexe 1, figure 2) dans l’extrait d’en-
tretien qui suit, la phase de visualisation des données débouche souvent sur
la fabrication d’une première version de machine qui, bien que souvent assez
mauvaise, constitue une base autorisant la production concrète de prédictions.
Afin de nous décrire les activités de conception qu’il a réalisées lors du déve-
loppement, pour un grand groupe bancaire, d’une machine capable de prédire
Document téléchargé depuis www.cairn.info - - - 132.247.249.253 - 05/12/2019 22:02 - © La Découverte

Document téléchargé depuis www.cairn.info - - - 132.247.249.253 - 05/12/2019 22:02 - © La Découverte


le non-règlement des créances par ses clients, Adrian nous explique la logique
de travail qu’il met généralement en œuvre lorsqu’il se lance dans ce type de
projet.

« J’ai ouvert les données. Je les ai observées, un peu comme un physicien. J’ai
regardé. J’ai vu quelque chose de surprenant. J’ai voulu comprendre ce qui se
passe et j’ai fait un premier modèle comme ça » (Adrian).

Pour la majorité des professionnels que nous avons interrogés, l’intérêt de


ce « premier modèle » est qu’il permet d’ouvrir la discussion avec l’implé-
menteur. En favorisant les échanges entre ce dernier et le concepteur, cette
ébauche de machine, souvent bricolée rapidement, favorise la constitution de
représentations collectives qui sont nécessaires à la bonne coordination de
la suite des activités de conception du système prédictif. Ces représentations
jouent alors un rôle crucial dans la fabrication de la machine puisque ce sont
elles qui permettent son amélioration progressive. Notons pour le moment
que cette amélioration prend concrètement la forme de multiples petites révi-
sions et perfectionnements qui sont opérés par diverses activités de nettoyage
des données, de création, d’ajout et de sélection de variables.

Le nettoyage des données recouvre ce que l’on appelle en SHS le recodage


des variables et le remplissage des valeurs manquantes. Si, du point de vue des
professionnels interviewés, cette étape dite de tuning est souvent considérée
80 Réseaux n° 211/2018

comme fastidieuse, elle n’en reste pas moins importante du point de vue des
apprentissages de la machine. Par exemple, les techniques d’apprentissage
par découverte reposent sur des mesures de distance entre les différentes
entités que représentent les données. Les concepteurs qui souhaitent réaliser
ce type d’apprentissage sur des données qualitatives doivent par conséquent
recoder ces dernières en des données quantitatives. C’est par exemple ce qu’a
fait Genès (cf. E_13 ; annexe 1, figure 2) lors de la conception d’une machine
à prédire le prix de vente de véhicules d’occasion. Lors de l’entretien, ce der-
nier nous explique plus exactement que, pour réaliser cette fabrication, il dis-
posait :

« [de] l’âge de la voiture et [de] la valeur de la voiture neuve. Il […]


manqu[ait…] la valeur de la voiture actuelle. Et ça peut jouer. Si la valeur de la
voiture est élevée, on a peut-être tendance à la vendre plus cher ? Et, du coup,
j’ai combiné ces deux features-là en créant une nouvelle variable : la valeur
actuelle de la voiture. J’ai combiné l’âge de la voiture, qui était un entier, et
la valeur de la voiture, qui était une lettre que j’ai transformée en chiffre pour
pouvoir avoir une opération numérique dessus. Donc, c’est tout simple, mais
Document téléchargé depuis www.cairn.info - - - 132.247.249.253 - 05/12/2019 22:02 - © La Découverte

Document téléchargé depuis www.cairn.info - - - 132.247.249.253 - 05/12/2019 22:02 - © La Découverte


ça peut jouer énormément » (Genès).

Il est important de bien comprendre que ce type de recodage renvoie à des


représentations particulières sur la manière dont il est possible de traduire des
valeurs qualitatives en des valeurs quantitatives, de façon à rendre mesurables
les distances qui les séparent. Bien évidemment, ceci n’est pas sans poser
quelques problèmes métrologiques. Le recodage des variables recouvre sou-
vent une part d’arbitraire qui est plus ou moins consciemment associée à dif-
férentes formes de normativité, c’est-à-dire à des représentations particulières
de ce qu’il convient ou non de faire.

Le remplissage des valeurs manquantes consiste à les remplacer par des


valeurs qui peuvent être déterminées de diverses manières. Par exemple, il est
possible de réaliser ces remplissages en calculant la moyenne ou la médiane
des valeurs correspondant à la variable considérée. Il existe toutefois des
techniques plus complexes qui consistent, non pas à calculer cette moyenne/
médiane pour l’ensemble des observations correspondant à la variable consi-
dérée, mais pour celles qui sont associées à des groupes d’entités définis en
fonction d’une ou plusieurs caractéristiques propres aux autres variables.
Cette technique a par exemple été mobilisée par Samuel pour concevoir la
machine à prédire l’acceptation des brevets dont nous avons parlé plus haut.
Pour remplir les données manquantes de la base dont il disposait (i.e., les
Comment décrire les technologies d’apprentissage artificiel ? 81

dates des dépôts des brevets), Samuel a commencé par faire une régression
logistique afin de déterminer les variables qui expliquaient le mieux l’accep-
tation des brevets. Le modèle de cette régression lui a alors permis de repérer
que le domaine de conception du brevet et son pays d’attribution étaient dotés
des plus forts indices de prédiction (i.e., les odds). Samuel a ensuite calculé,
pour chaque pays et en fonction du domaine, la moyenne des dates des dépôts
des brevets pour remplir chaque donnée manquante. Une nouvelle fois, il
est important de bien saisir que ce type de manipulation de l’environnement
d’apprentissage, aussi anodin qu’il paraisse, est déjà une façon d’organiser
normativement le travail inférentiel de la machine : en choisissant d’utiliser
la méthode que nous venons de présenter, Samuel cherche à maximiser la
performance prédictive de la machine, quitte à complexifier et à biaiser3 son
fonctionnement ; et cela, parce que c’est ce qui lui apparaît le plus pertinent
au regard de ce qu’il comprend des attentes de l’implémenteur. Ajoutons que,
dans son ensemble, la phase de tuning est, plus ou moins explicitement, co-
élaborée avec l’implémenteur dans la mesure où le concepteur est générale-
ment amené à lui rendre régulièrement des comptes. Dans le sens de ce que
Document téléchargé depuis www.cairn.info - - - 132.247.249.253 - 05/12/2019 22:02 - © La Découverte

Document téléchargé depuis www.cairn.info - - - 132.247.249.253 - 05/12/2019 22:02 - © La Découverte


nous avons dit en amont, c’est d’ailleurs lors de ces comptes rendus, souvent
effectués de façon « agile » et peu formalisée, que le concepteur et l’implé-
menteur produisent les représentations collectives qui autorisent le co-déve-
loppement de la machine.

Les activités de création, d’ajout et de sélection de variables sont, quant à


elles, dites de feature engineering. La création de variables est effectuée à
partir d’une combinaison plus ou moins complexe d’un nombre de variables
quelquefois important. C’est lors de cette étape que vont être créés, par
exemple, des delta de temps qui peuvent être cruciaux du point de vue des
apprentissages de la machine. En soustrayant les heures, les minutes et les
secondes correspondant à un clic en t à celles associées à un clic en t+1,
le concepteur permet à sa fabrication d’observer la durée des pages consul-
tées par un consommateur. De telle sorte que, dans le cas des trois sociétés
que nous avons observées (cf. annexe 1, figure 1), ces delta de temps sont
primordiaux du point de vue des apprentissages que réalisent les machines
qu’elles conçoivent pour personnaliser les environnements numériques des
commerçants qui les mobilisent. Et s’ils sont aussi importants, c’est parce

3.  Rappelons que la régression logistique que mobilise Samuel est paramétrée pour expliquer
l’acceptation des brevets.
82 Réseaux n° 211/2018

que ces sociétés les considèrent comme de bons indicateurs de l’attention des
consommateurs.

Pour les professionnels interviewés, l’ajout de variable est une étape pas-
sionnante dans le sens où elle renvoie à un véritable travail d’enquête. Elle
consiste en effet à rechercher et à recueillir, sur le web et au sein des don-
nées ouvertes (i.e., open data), des variables susceptibles d’offrir au système
des points de vue pertinents pour effectuer ses activités d’apprentissage.
Par exemple, au moment où nous avons conduit notre enquête, la société
DataCrawler (cf. S_01 ; annexe 1, figure 1) souhaitait connecter son sys-
tème de recommandation aux données publiques de Météo-France afin que
celui-ci puisse apprendre à anticiper l’effet du temps sur les comportements
d’achat des consommateurs. Précisons toutefois que, s’il est aujourd’hui
possible d’accéder à une grande diversité de données par le biais d’Inter-
net, l’automatisation de leur recueil n’est pas toujours facile à déployer ;
que ce soit pour des raisons techniques, mais aussi juridiques. La sélection
de variables est, quant à elle, souvent réalisée de manière automatique. Elle
Document téléchargé depuis www.cairn.info - - - 132.247.249.253 - 05/12/2019 22:02 - © La Découverte

Document téléchargé depuis www.cairn.info - - - 132.247.249.253 - 05/12/2019 22:02 - © La Découverte


consiste à choisir, au sein de l’ensemble de la base de données, les variables
qui sont dotées des plus forts niveaux de corrélation vis-à-vis du phénomène
qui doit être anticipé. Par exemple, la technique de la régression logistique
mobilisée par Samuel pour choisir les variables qui expliquent le mieux
l’acceptation d’un brevet est une manière d’automatiser la phase de sélec-
tion de variables. À l’instar de la phase de tuning, celle dite de feature engi-
neering implique la participation active de l’implémenteur selon des modes
d’interaction qui sont, une nouvelle fois et la plupart du temps, agiles et peu
formalisés.

En somme, pour Solveig (cf. E_02 ; annexe 1, figure 2), le travail de struc-


turation des données consiste à « biaiser »4 le point de vue de la machine,
c’est-à-dire à organiser son environnement d’apprentissage en fonction des
besoins et des connaissances métiers de l’implémenteur. En ce sens, l’extrait
d’entretien qui suit met en avant que ce biais, que les spécialistes qualifient
d’apprentissage, n’est pas institué par le seul concepteur : il est la résultante
d’une collaboration réalisée avec l’implémenteur. Lors de la présentation des

4.  Précisons que nous reprenons ici les termes des professionnels interrogés. Nous souhaitons
d’ailleurs souligner l’ambiguïté de cette expression dans la mesure où elle laisse entendre que
les machines prédictives peuvent effectuer leurs apprentissages sans « biais », c’est-à-dire
d’une façon « naturelle ». Or de tels apprentissages automatiques ne sont évidemment pas
possibles.
Comment décrire les technologies d’apprentissage artificiel ? 83

activités de conception qu’elle effectue dans le cadre de la société qu’elle a


créée, Solveig nous explique par exemple que la structuration des données,
c’est-à-dire ce que nous appelons le cadrage de l’environnement d’appren-
tissage, occupe une part importante de son travail. Suite à notre demande de
précision sur ce qu’elle entend par structuration des données, Solveig nous
répond :

« Le travail de structuration consiste à trouver par quel biais on veut regarder
le problème. C’est-à-dire que, si on a quelque chose qui va varier en fonction
du temps, en fonction du lieu, en fonction du sexe de la personne et en fonc-
tion du temps qu’il fait, quand on cherche à savoir comment est-ce qu’il varie,
on va regarder plusieurs observations et on va regarder leur différence. Mais,
est-ce que je regarde la différence au même endroit pour une femme dans un
environnement ensoleillé et je regarde juste deux jours ; ou alors, le même jour
à deux endroits différents pour une femme et un homme ? Alors, ça fait déjà
trop de différence, parce que est-ce que la différence est due au fait que c’est
une femme, au fait qu’il fait moche, etc. ? Donc, on commence par structu-
rer les données en fonction du problème qu’on peut extraire. Et ça, ce n’est
Document téléchargé depuis www.cairn.info - - - 132.247.249.253 - 05/12/2019 22:02 - © La Découverte

Document téléchargé depuis www.cairn.info - - - 132.247.249.253 - 05/12/2019 22:02 - © La Découverte


pas quelque chose qui est simple, qui est automatique : ça demande pas mal
d’échanges avec les experts métier » (Solveig).

Ajoutons que, comme Solveig, les autres professionnels que nous avons inter-
viewés ont pointé l’importance de l’expertise métier de l’implémenteur dans
le travail de structuration des données. De telle sorte que ce dernier peut être
considéré comme une façon d’injecter, au sein de la base de données, une par-
tie de cette expertise, et donc des formes de normativité qui y sont associées,
afin de cadrer les activités d’apprentissage de la machine.

CADRER L’ENVIRONNEMENT DE TRAITEMENT

La conception d’une machine à prédire est associée à différentes activités de


structuration des données qui ont pour finalité d’organiser son environnement
d’apprentissage en fonction de l’expertise qui est propre à l’implémenteur. À
lui seul, ce cadrage ne peut cependant soutenir aucune forme concrète d’ap-
prentissage automatique. Sans l’architecture cognitive lui permettant d’infé-
rer des connaissances sur les phénomènes que représentent les données, une
machine ne peut apprendre à prédire aucun futur puisque c’est cette architec-
ture qui rend possible la traduction des données d’observation en des données
de prédiction. Elle forme l’environnement de traitement qui permet au sys-
tème d’apprendre à prédire l’avenir.
84 Réseaux n° 211/2018

Choisir le régime d’anticipation

Pour l’ensemble des professionnels que nous avons rencontrés, la première


question à se poser lorsque l’on commence la phase de fabrication de l’archi-
tecture cognitive d’une machine prédictive est la suivante : est-il nécessaire
de comprendre l’apprentissage qui lui permettra de réaliser ses prédictions ?
Si la réponse est négative, c’est qu’il est possible de munir le système d’une
méthode d’apprentissage complexe, peu importe que celle-ci fonctionne ou
non comme une boîte noire. Selon Solveig, résoudre le problème du choix
du régime d’anticipation de la machine est une décision importante qui est
généralement réalisée de manière collégiale avec l’implémenteur. Solveig a
pu noter durant son expérience professionnelle que, lorsque cet implémenteur
est représenté par un ou plusieurs ingénieurs polytechniciens, la réponse est
souvent positive : ces derniers ont, selon elle, beaucoup de mal à accepter
de ne pas comprendre l’apprentissage d’une machine prédictive. A contrario,
Solveig a remarqué que les spécialistes de la relation client ne manifestent
que peu de résistance à faire usage des boîtes noires. Les physiciens de for-
Document téléchargé depuis www.cairn.info - - - 132.247.249.253 - 05/12/2019 22:02 - © La Découverte

Document téléchargé depuis www.cairn.info - - - 132.247.249.253 - 05/12/2019 22:02 - © La Découverte


mation apporteraient une certaine attention aux moyens qui permettent au
système d’effectuer ses prédictions, tandis que les spécialistes de la relation
client s’intéresseraient, quant à eux, avant tout aux résultats5.

Ceci explique sans doute pourquoi les spécialistes des données que nous
avons interrogés s’entendent souvent assez bien avec les professionnels de la
relation client qui font appel à leurs services. Comme le montre le verbatim
qui suit, à l’instar de ces derniers, les concepteurs que nous avons interviewés
privilégient souvent le pragmatisme du résultat à la connaissance du moyen.

« Même si je devais confier mon argent à un algorithme, à un robot qui joue-


rait pour moi, j’aurais tendance à préférer le tester avec des cas un petit peu
borderline avant qu’il passe à l’action plutôt que d’espérer que ça se passe bien
parce qu’il se conforme à une logique et à des règles de décision que moi je
peux comprendre. Plutôt que d’essayer de comprendre le modèle final qui sort
de l’algorithme et essayer de se dire que c’est quelque chose qu’on peut com-
prendre parce que telle variable va plutôt faire pencher les résultats vers telle

5.  Nous souhaitons toutefois préciser que ce point de vue ne peut pas être généralisé puisqu’il
existe de nombreux marketers qui acceptent mal de se laisser déposséder d’une partie de leur
expertise par les boîtes noires que fabriquent les professionnels des données. Rappelons en
ce sens que Solveig nous parle essentiellement des professionnels de la relation client qui ont
volontairement fait appel à ses services.
Comment décrire les technologies d’apprentissage artificiel ? 85

classe et telle classe, je préfère me dire que la façon dont le modèle est éla-
boré est quelque chose que je peux comprendre, quelque chose qui me semble
raisonnable et juste plutôt que de me concentrer sur comment est obtenu le
résultat final » (Ghislain).

Dans le domaine de l’apprentissage artificiel, il existe ce que nous pour-


rions appeler une loi de traduction qui veut que plus les apprentissages
réalisés par le système sont humainement compréhensibles et moins ce der-
nier est capable de considérer la complexité du réel que représente la base
de données. Ainsi, les boîtes noires que sont les réseaux de neurones pro-
fonds (i.e., le deep learning) ou les forêts aléatoires (i.e., les random forest)
connaissent aujourd’hui un certain succès chez les professionnels de la
relation client. Comme le souligne Ghislain dans le verbatim qui suit, si
les spécialistes de la finance et de l’assurance ont besoin de comprendre les
apprentissages des systèmes qu’ils conçoivent afin d’être capables de rendre
des comptes sur les modèles qu’ils produisent, il n’en est pas de même des
marketers6. Un peu à la manière de Facebook, ces derniers développent et
Document téléchargé depuis www.cairn.info - - - 132.247.249.253 - 05/12/2019 22:02 - © La Découverte

Document téléchargé depuis www.cairn.info - - - 132.247.249.253 - 05/12/2019 22:02 - © La Découverte


intègrent des machines qui doivent avant tout prédire des offres de biens qui
sont susceptibles d’intéresser les consommateurs. Pour reprendre les termes
d’un des professionnels interviewés, l’erreur n’est, dans ce dernier cas, pas
« létale ».

« Et ça, c’est une façon de voir les choses qui est complètement absente de la
finance ou de l’assurance. Mais ça l’est aussi pour des raisons réglementaires.
Parce qu’eux ont besoin de justifier des risques qu’ils prennent. Du coup, s’ils
n’ont pas des évaluations du risque qui sont fondées sur des modèles qui s’y
prêtent bien, […] ils peuvent avoir des emmerdes. Maintenant, les classes
de problèmes ne sont pas toujours les mêmes. Quand on est Facebook, par
exemple, et qu’on veut prédire quels événements vont être utiles dans la news
feed de quelqu’un, […] finalement, on n’a pas forcément envie de connaître

6.  Il convient une nouvelle fois d’ajouter que ces propos ne valent que dans le cadre de l’étude
que nous avons réalisée. Nous souhaitons en ce sens mentionner que Dominique Boullier
(2016) montre, par exemple, le contraire : les boîtes noires connaissent un certain succès dans
le domaine de la finance alors que, dans celui du marketing, l’intelligibilité des algorithmes est
plutôt appréciée. Notons alors que cette contradiction est probablement liée aux spécificités des
expériences des professionnels que nous avons interviewés. Dans les cas du marketing, de la
finance et de l’assurance, il existe en effet une grande diversité d’applications des technologies
algorithmiques. De telle sorte qu’il n’est pas impossible que la nécessité de pouvoir expliquer
le fonctionnement de ces algorithmes varie en fonction des secteurs d’activité au sein desquels
ses applications sont développées.
86 Réseaux n° 211/2018

les détails de pourquoi telle décision a été prise. On préfère se dire que tel
algorithme a marché parce qu’on voit que les gens utilisent concrètement plus
leur truc et que la méthode est fiable plutôt que d’essayer de comprendre.
Quand on essaie de mettre les bons éléments dans une news feed, on ne prend
pas, non plus, beaucoup de risque » (Ghislain).

Pour autant, au regard de nos matériaux d’enquête, il semble que les implé-
menteurs souhaitent, encore aujourd’hui, pouvoir saisir les modèles qui per-
mettent aux machines d’effectuer leurs prédictions. Lors de l’explicitation des
différentes activités de conception de technologies prédictives que Janis a réa-
lisées dans le secteur de la gestion, ce dernier nous confie en effet que :

« après, ce que je vois dans la vraie vie, les gens ont quand même besoin, je
pense que cela les rassure, même si le modèle est complètement, on va dire
abstrait, de sortir une ou deux variables explicatives pour rassurer les gens
et montrer que, oui, le modèle a quand même compris ça. Et que d’ailleurs,
il y a quand même une rationalité. Même si cette unique rationalité est loin
de faire toute la performance du modèle et si la performance du modèle est
Document téléchargé depuis www.cairn.info - - - 132.247.249.253 - 05/12/2019 22:02 - © La Découverte

Document téléchargé depuis www.cairn.info - - - 132.247.249.253 - 05/12/2019 22:02 - © La Découverte


en fait inexplicable. Parce que, quand on commence à accumuler et à faire ce
qu’on appelle des ensembles de modèles, il n’y a plus d’explicabilité facile à
démontrer. Donc, il faut quand même exhiber quelques variables pour rassurer
la nature humaine qui a besoin de constater que la machine a bien travaillé »
(Janis ; cf. E_01 ; annexe 1, figure 2).

Dans le cas de Lisbeth (cf. E_05 ; annexe 1, figure 2), ces contraintes d’expli-
cabilité structurent de manière rigide les activités de fabrication des machines
à prédire qu’elle développe au sein de la plateforme en ligne de vente de
magazines qui l’emploie. Ne réalisant jamais seule la conception de telles
machines, Lisbeth travaille en collaboration avec plusieurs collègues qui ne
sont pas des spécialistes de l’intelligence artificielle. Il suffit qu’elle prononce
les termes « réseau de neurones » pour « perdre tout le monde ». C’est pour-
quoi Lisbeth n’utilise que rarement les boîtes noires durant ses activités pro-
fessionnelles. En outre, Lisbeth ajoute, lors de l’entretien, que les concepteurs
de machines prédictives sont, la plupart du temps, soumis à des contraintes de
simplicité qui rendent parfois difficile l’usage des boîtes noires. Ces dernières
peuvent en effet être de véritables « usines à gaz » difficilement intégrables
au système d’information de l’implémenteur. Adrian nous confirmera ce point
en ajoutant que ces contraintes de simplicité le conduisent souvent à tester ce
qu’il appelle la « mise en production », ou encore, l’« industrialisation » des
machines qu’il conçoit.
Comment décrire les technologies d’apprentissage artificiel ? 87

Concevoir l’architecture cognitive

Une fois que le concepteur et l’implémenteur ont déterminé le régime d’anti-


cipation de la machine prédictive, il est nécessaire d’élaborer matériellement
son architecture cognitive. Sur le plan théorique, cette architecture peut être
représentée comme une structure algorithmique permettant d’associer trois
espaces : l’espace des entrées notées x, celui des hypothèses notées h et celui
des sorties notées y. L’espace des entrées correspond aux données associées
à ce que l’on appelle, en sciences sociales, les variables indépendantes, qui
sont également dites explicatives. Par exemple, dans le cas de la prédiction de
l’acceptation de brevet sur lequel a travaillé Samuel, il s’agit de l’ensemble
des données permettant de définir la composition des brevets. L’espace des
sorties correspond aux données qui sont associées aux variables dépendantes,
qui sont aussi qualifiées de variables à expliquer. Toujours en référence au cas
de Samuel, il s’agit, par exemple, des données dont ce dernier disposait pour
renseigner l’acceptation des demandes de brevets. L’espace des hypothèses
est un environnement abstrait qui correspond à l’ensemble des hypothèses
Document téléchargé depuis www.cairn.info - - - 132.247.249.253 - 05/12/2019 22:02 - © La Découverte

Document téléchargé depuis www.cairn.info - - - 132.247.249.253 - 05/12/2019 22:02 - © La Découverte


mathématiquement plausibles qui peuvent permettre d’associer les données
d’entrées à celles des sorties. L’architecture cognitive d’une machine prédic-
tive doit alors lui permettre de trouver, au sein de l’espace des hypothèses h,
celle qui permet de lier, de la façon la plus cohérente possible, l’espace des
entrées x et celui des sorties y. En d’autres termes, cette architecture est un
système de traitement de données qui a pour fonction de résoudre le problème
d’optimisation que recouvre la fonction f(x) = y.

Ce problème d’optimisation peut prendre des formes diverses compte tenu


du nombre de technologies d’apprentissage artificiel qui est aujourd’hui dis-
ponible. Par exemple, la programmation logique inductive peut permettre
de représenter l’espace des hypothèses sous la forme d’attributs reliés par
des connecteurs de conjonction ou de disjonction. Après apprentissage, une
machine équipée de ce type de technique peut par exemple prédire qu’un
consommateur qui a observé plusieurs vélos et qui n’a pas consulté de casque
préfère les vélos de route à ceux dits tout terrain. Les inférences grammati-
cales et les chaînes de Markov peuvent, quant à elles, autoriser une repré-
sentation de l’espace des hypothèses sous la forme d’attributs connectés de
manière séquentielle. Par le biais de ces deux technologies, une machine
peut ainsi apprendre à prédire les futurs de divers processus. Ces processus
peuvent par exemple correspondre à des parcours de navigation. Grâce à
ce type de technique, un système apprenant peut anticiper le prochain clic
d’un consommateur à partir de la séquence des pages qu’il a précédemment
88 Réseaux n° 211/2018

observées durant sa visite. Les arbres d’inférences permettent de représenter


l’espace des hypothèses comme une suite de problèmes divisés en plusieurs
sous-problèmes prenant la forme de conditions/actions de type SI… ALORS.
Ainsi, une machine équipée de cette technologie peut par exemple prédire
que SI le consommateur est une femme, qu’il est entre 22 h et minuit, que
cette femme à moins de 25 ans et qu’elle a cliqué sur plusieurs vêtements
noirs, ALORS ce consommateur aime des produits de la catégorie gothique.
Ajoutons qu’il existe bien d’autres techniques d’apprentissage artificiel qui
autorisent différentes représentations de l’espace des hypothèses et que nous
ne pouvons pas lister de manière exhaustive dans cet article. En outre, ces
technologies peuvent être comprises comme des modules d’apprentissage qui
sont combinables de façon à autoriser la résolution de problèmes de prédic-
tion qui peuvent être complexes.

Nous souhaitons alors insister sur le fait que le choix du régime d’anticipation
et celui d’utiliser ou de combiner telle et telle technique d’apprentissage artifi-
ciel renvoient à des représentations spécifiques sur la manière dont il convient
Document téléchargé depuis www.cairn.info - - - 132.247.249.253 - 05/12/2019 22:02 - © La Découverte

Document téléchargé depuis www.cairn.info - - - 132.247.249.253 - 05/12/2019 22:02 - © La Découverte


de poser un problème d’apprentissage automatique. La phase de conception
de l’architecture cognitive d’un système prédictif constitue en ce sens le pro-
longement de celle de structuration des données : elle est une manière de
formaliser, en termes d’inférence statistique, l’intention du problème que sou-
haite lever l’implémenteur de façon à la traduire en un problème d’apprentis-
sage automatique. Comme dans le cas de l’étape de structuration des données,
la conception de l’architecture cognitive de la machine recouvre, de la part du
concepteur, un important travail d’accompagnement visant à aider l’implé-
menteur dans le processus d’identification, de mobilisation et de formalisa-
tion de ses connaissances. De façon analogue au cadrage de l’environnement
d’apprentissage, celui de l’environnement de traitement est une co-création.

CADRER L’ENVIRONNEMENT POLITIQUE

Il en va un peu différemment du cadrage de l’environnement politique.


Cependant, avant d’exposer nos arguments, il nous faut préciser ce que nous
entendons par environnement politique. Pour pouvoir apprendre à prédire le
futur, les machines ont besoin, à tout le moins de manière générale et en bout
de chaîne, d’un ou plusieurs objectifs. Ces objectifs recouvrent systématique-
ment des stratégies d’action particulières qui orientent, de manière mécanique,
l’ensemble des apprentissages réalisés par le système. Ces objectifs renvoient
de ce fait à une politique (au sens large du terme) qui régule de façon stricte le
Comment décrire les technologies d’apprentissage artificiel ? 89

travail inférentiel effectué par la machine. Aussi, si nous qualifions ce cadrage


de politique, c’est parce qu’il n’intervient pas directement dans la relation
que la machine entretient avec son environnement d’apprentissage, ni dans
la détermination de son environnement de traitement. Par contre, il contraint
de manière extrêmement rigide l’orientation de l’ensemble de son travail
inférentiel. Nous souhaitons en ce sens souligner que si les environnements
d’apprentissage, de traitement et politique sont des espaces qui peuvent être
distingués sur le plan analytique, ils forment in fine un ensemble inextricable
du point de vue des prédictions que fabriquent les technologies d’appren-
tissage artificiel. Et c’est d’ailleurs pourquoi le cadrage de l’environnement
politique occupe une place fondamentale dans la conception des machines
prédictives : sans lui, ces dernières ne peuvent bien souvent produire aucune
prédiction. Sans objectifs permettant d’orienter leurs activités d’apprentis-
sage, les machines sont en effet souvent rapidement perdues.

Déterminer les critères d’optimisation


Document téléchargé depuis www.cairn.info - - - 132.247.249.253 - 05/12/2019 22:02 - © La Découverte

Document téléchargé depuis www.cairn.info - - - 132.247.249.253 - 05/12/2019 22:02 - © La Découverte


Sur le plan formel, les objectifs d’une machine prédictive sont intégrés à
son architecture cognitive par le biais d’un ou plusieurs critères d’optimisa-
tion. Dans le cas de l’agent de recommandation qu’a développé la société
DataCrawler, ces critères sont, par exemple, de trois types : le nombre de
clics effectués par les consommateurs sur les recommandations ; la durée de
consultation de ces recommandations ; et le taux de conversion, c’est-à-dire
de transformation des visiteurs en acheteurs. Cela veut dire que les recom-
mandations que ce système propose aux consommateurs sont systématique-
ment choisies afin de maximiser ces trois indicateurs de performance. En
formant l’environnement politique à l’intérieur duquel la machine réalise son
travail inférentiel, ces indicateurs jouent un rôle fondamental dans la manière
dont cette dernière se représente le futur. Les avenirs que produit cette tech-
nologie prendraient en effet des formes totalement différentes si elle avait, par
exemple, pour objectif d’optimiser un ou plusieurs indicateurs de désorienta-
tion.

Si les critères d’optimisation influent sur le travail inférentiel effectué par les
machines prédictives, ils jouent également un rôle important dans leurs fabri-
cations : ils en constituent le fil rouge. Certains des professionnels interviewés
nous ont en ce sens expliqué qu’une des premières tâches qu’ils réalisent durant
leurs activités de conception est d’identifier et de comprendre les critères que
l’implémenteur souhaite optimiser. Même si, au départ, l’implémenteur n’a
90 Réseaux n° 211/2018

souvent qu’une idée vague de la machine qu’il souhaite intégrer à son organi-
sation, il sait par contre, a minima globalement, les critères que cette dernière
doit maximiser. Comme l’exemplifie le cas de l’agent de recommandation éla-
boré par la société DataCrawler, ces critères sont souvent en lien étroit avec
les indicateurs de mesure de performance qui sont propres à la culture ges-
tionnaire de l’entreprise qui souhaite mobiliser la machine. C’est précisément
pourquoi le cadrage de l’environnement politique est souvent principalement
déterminé par l’implémenteur. Bien entendu, lorsque ce dernier n’a aucune
idée des objectifs qui pourraient permettre d’orienter le travail inférentiel du
système, ce qui arrive quelquefois, le concepteur est conduit à l’aider à les
dégager. Ainsi, si cet implémenteur souhaite développer un système de recom-
mandation, le concepteur peut par exemple être amené à le conduire à répondre
au questionnement suivant : comment identifier les préférences des consom-
mateurs à partir des données disponibles et pourquoi chercher à les anticiper ?

Éviter le sur-apprentissage
Document téléchargé depuis www.cairn.info - - - 132.247.249.253 - 05/12/2019 22:02 - © La Découverte

Document téléchargé depuis www.cairn.info - - - 132.247.249.253 - 05/12/2019 22:02 - © La Découverte


Une fois déterminés, les critères d’optimisation permettent au concepteur
d’élaborer différents tests qui ont pour fonction d’évaluer les performances
des prédictions réalisées par la machine. Il est possible de dégager deux grands
types de tests. Le premier est effectué d’une manière qui est plutôt explora-
toire. Il consiste à élaborer ce que les professionnels interviewés appellent
une grind search, c’est-à-dire une grille de plusieurs paramétrages de l’ar-
chitecture cognitive de la machine. Cette grille a pour fonction d’autoriser
l’identification et la préservation automatique des paramètres qui donnent
les meilleurs résultats. Ces paramètres peuvent prendre des formes multiples
selon la ou les techniques d’apprentissage mobilisées pour constituer l’archi-
tecture cognitive du système. Après avoir demandé à Samuel de nous expli-
quer les formes concrètes de ces paramétrages, celui-ci nous expose le cas des
forêts aléatoires qu’il utilise beaucoup durant ses activités professionnelles,
tout comme un certain nombre de ses collègues.

« Prenons un exemple classique : ce qu’on appelle les random forests [i.e.,


les forêts aléatoires]. On peut paramétrer le nombre d’arbres, c’est-à-dire le
nombre de sous-modèles qu’il doit agréger. On peut paramétrer la profondeur
maximale pour chacun des arbres. Donc, on peut paramétrer la puissance de
chaque sous modèle. On peut paramétrer les critères d’informations de chaque
modèle, c’est-à-dire la capacité d’un sous-modèle à distinguer deux sous-
groupes afin de construire des arbres binaires. Donc ça va être une mesure sur
Comment décrire les technologies d’apprentissage artificiel ? 91

la manière dont on construit l’arbre. Il y a plein d’autres paramètres. Dans les


API, on peut regarder ça. Mais, globalement, ce sont ces genres de paramé-
trages qui sont laissés libres » (Samuel).

Le deuxième type de tests a une vertu plus probatoire. Les professionnels


interviewés parlent d’AB Testing. Comme le présente Lisbeth dans l’extrait
d’entretien exposé après, l’AB Testing s’apparente à ce qu’Ester Duflo (2009)
appelle des expériences randomisées, c’est-à-dire des études expérimentales
visant à comparer un groupe test, un groupe témoin et où chaque individu est
réparti dans chaque groupe de manière aléatoire.

« J’avais été sollicitée sur une analyse pour arriver à caler une séquence
d’emails et de notifications sur les premiers jours de la vie d’un utilisateur. Ce
sont des analyses statistiques qui avaient démontré qu’il valait mieux mettre
un message à tel jour, tel jour et tel jour, plutôt que tel autre, tel autre et tel
autre puisque c’était là que les gens répondaient le mieux. Finalement, cette
analyse-là, on l’a testé en AB-Testing sur un échantillon, une population sur
laquelle on a appliqué mes recommandations, avec le même message ; enfin,
Document téléchargé depuis www.cairn.info - - - 132.247.249.253 - 05/12/2019 22:02 - © La Découverte

Document téléchargé depuis www.cairn.info - - - 132.247.249.253 - 05/12/2019 22:02 - © La Découverte


toutes choses égales par ailleurs. On fait simplement changer le moment où on
délivrait le message, en comparant sur une population témoin où on n’a pas
changé. Et, finalement, voilà, quels sont les impacts sur le business ? Est-ce
que cela rapporte de l’argent ? Mais aussi, des choses plus métier, en disant,
est-ce qu’effectivement les gens réagissent mieux, ouvrent mieux, cliquent
mieux, etc. ? Quels sont les aspects positifs et négatifs ? » (Lisbeth).

Au final, les performances des prédictions produites par une machine sont
généralement évaluées afin d’éviter ce que les spécialistes appellent le sous-
apprentissage et le sur-apprentissage. Le sous-apprentissage se manifeste par
des situations où le modèle appris par la machine est trop général, de telle
sorte qu’il ne permet pas de rendre correctement compte de la complexité de
la réalité. À l’inverse, le sur-apprentissage se manifeste, cette fois-ci, par des
situations où la machine se construit un modèle du réel trop spécialisé, c’est-
à-dire trop proche de la complexité empirique que traduisent les données
d’apprentissage. Notons que pour les professionnels que nous avons rencon-
trés, c’est surtout le sur-apprentissage qui pose problème lors de la conception
d’une machine. Afin de nous expliquer ce dernier point, Solveig nous dit :

« On peut toujours réduire en statistique. On peut toujours chercher une ana-
lyse très fine, aller chercher jusqu’au cas particulier. Mais, en général […],
on a une grosse barrière qui est le sur-apprentissage. C’est-à-dire que si on va
chercher trop finement, l’analyse ne s’appliquera qu’à ces données-là, et donc,
92 Réseaux n° 211/2018

sera inexploitable pour le reste des projets. Et si on regarde des données com-
portementales, par exemple, si on va chercher le plus finement possible, on ne
peut pas appliquer le modèle à quelqu’un d’autre » (Solveig).

UN MOUVEMENT EXPLORATOIRE DE FORMALISATION


DE CONNAISSANCES MÉTIER

La conception d’une machine à prédire peut être décrite par le biais des activi-
tés de cadrage des environnements d’apprentissage, de traitement et politique
que nous venons de présenter. Dans cette section, nous souhaitons souligner
que la réalisation de ces activités ne répond pas à une logique de production
de type rationnel. Elle renvoie plutôt à une logique de bricolage opérée selon
un régime d’action exploratoire qui n’est pas sans rappeler les pratiques des
hackers qui intéressent Nicolas Auray (2011).

Une co-création exploratoire et itérative


Document téléchargé depuis www.cairn.info - - - 132.247.249.253 - 05/12/2019 22:02 - © La Découverte

Document téléchargé depuis www.cairn.info - - - 132.247.249.253 - 05/12/2019 22:02 - © La Découverte


La conception d’une machine à prédire peut être comprise comme un proces-
sus exploratoire à travers lequel le concepteur accompagne l’implémenteur
durant l’ensemble des phases d’exploration et de formalisation du problème
d’apprentissage qui lui est sous-jacent. Car, au départ, le projet de développe-
ment et d’intégration d’une machine prédictive est souvent assez flou du point
de vue de l’implémenteur. Lors de la présentation de ces activités profession-
nelles, Solveig nous dit plus exactement que :

« Avec le buzz des big data, aujourd’hui, avec l’avènement du mot big data,
la plupart des données sont devenues importantes. Elles sont surtout mises à
prix. Et les gens qui accumulent des données, que ce soit pour accumuler des
données, pour leur corps de métier ou quoi que ce soit, vont penser qu’elles
ont de la valeur sans savoir quoi en faire. Donc, toute une partie de mon travail
consiste à recevoir ces gens qui ont plein de données. Souvent, ils ne savent
même pas spécialement qu’est-ce qu’il y a dans ces fameuses données et ils
cherchent à en tirer de l’information. Ils arrivent et ils disent : “Je suis sûr qu’il
y a quelque chose dans mes données.” Et après, c’est à nous d’éplucher les don-
nées, d’essayer d’en tirer une problématique et éventuellement d’aller au bout,
de faire une étude et d’aider à la résolution de la problématique » (Solveig).

Tout l’art de la conception d’une machine prédictive consiste ainsi, pour le


concepteur, à aider l’implémenteur à découvrir, à partir de ses données, une
Comment décrire les technologies d’apprentissage artificiel ? 93

problématique qui lui apparaît pertinente en fonction du contexte organisa-


tionnel qu’il connaît. Une fois cette problématique identifiée, le concepteur
réalise un travail d’accompagnement actif de façon à aider l’implémenteur à
repérer, à mobiliser et à formaliser l’expertise métier nécessaire à la réalisa-
tion des activités de cadrage des environnements d’apprentissage, de traite-
ment et politique qui composent la machine prédictive. Toujours dans le but
de nous expliquer les activités qu’elle réalise dans le cadre de l’entreprise
qu’elle a créée, Solveig ajoute que :

« Ce sont des jeux de va-et-vient. On travaille sur nos données, on en tire
des paramètres, des explications, des moyennes plus ou moins complexes des
données. Puis après, on retourne vers le client qui reconnaît ou qui découvre
des choses propres à son métier. Et à partir de là, on peut ré-avancer : soit aller
chercher plus loin, soit faire de la prédiction. […]. Et donc, entre notre exper-
tise statistique et celle du client, on redéfinit qu’elle est le problème. Qu’est-ce
que c’est qu’une moyenne ? Comment on structure les données ? Essayer de
réduire les dimensions, on se met en groupe homogène, on travaille sur des
sous-ensembles, et après, on teste des méthodes plus ou moins évoluées de
Document téléchargé depuis www.cairn.info - - - 132.247.249.253 - 05/12/2019 22:02 - © La Découverte

Document téléchargé depuis www.cairn.info - - - 132.247.249.253 - 05/12/2019 22:02 - © La Découverte


prédiction en fonction des besoins du client » (Solveig).

Une machine à prédire est donc le produit d’une relation de co-création : sa


fabrication fait l’objet de nombreuses explorations et itérations par le biais
desquelles le concepteur co-élabore, avec l’implémenteur, les cadrages des
environnements d’apprentissage, de traitement et politique dont a besoin
la machine pour effectuer ses prédictions (cf. annexe 2, figure 3). Du point
de vue de la relation qui se joue entre le concepteur et l’implémenteur, ces
cadrages sont alors d’une importance fondamentale puisque ce sont eux qui
sont garants de la pertinence du travail inférentiel réalisé par le système :
ils permettent de socialiser algorithmiquement la machine en contraignant
son autonomie de calcul afin d’assurer sa bonne intégration au sein de l’orga-
nisation.

Un processus de formalisation de connaissances métier

Dans les sens des travaux d’Éric Dagiral et de Sylvain Parasie (2017), les
activités de cadrage des environnements d’apprentissage, de traitement et
politique que nous venons d’exposer sont une façon de formaliser et de prêter
aux machines les connaissances métier dont elles ont besoin pour apprendre
à prédire des avenirs intéressants, à tout le moins aux yeux des acteurs socio-
économiques qui les mobilisent. Pour reprendre les termes des auteurs, ce
94 Réseaux n° 211/2018

sont ces connaissances qui offrent aux machines une certaine sensibilité « à la
fois aux questions et aux problèmes qui sont jugés importants par les acteurs
des mondes sociaux considérés » (Dagiral et Parasie, 2017, p. 97). La forma-
lisation de ces connaissances se manifeste concrètement par une multitude
de choix sur la façon dont doivent être structurés les environnements d’ap-
prentissage, de traitement et politique. Empiriquement, ces choix prennent
la forme de petites manipulations informatiques du type de celles réalisées,
par exemple, par Samuel pour calculer les valeurs « actuelles » des voitures
d’occasion. Comme nous l’avons vu plus haut, ce calcul repose sur l’hypo-
thèse que la valeur « actuelle » d’une voiture d’occasion peut être inférée à
partir de sa valeur d’origine et de son âge. Et, pour Samuel, cette hypothèse
n’est rien d’autre qu’une manière de formaliser les connaissances, plus ou
moins naïves, de l’implémenteur a qui été destinée la machine à prédire les
prix des voitures d’occasion qu’il concevait et en fonction des données dont
il disposait.

Aussi, en insistant sur les dimensions exploratoire et itérative de la co-création


que compose une machine à prédire, notre objectif est de souligner le carac-
Document téléchargé depuis www.cairn.info - - - 132.247.249.253 - 05/12/2019 22:02 - © La Découverte

Document téléchargé depuis www.cairn.info - - - 132.247.249.253 - 05/12/2019 22:02 - © La Découverte


tère non planifié du mouvement de formalisation des connaissances métier
qui lui est sous-jacent. Car celui-ci se construit d’une manière qui s’apparente
au modèle de la poubelle proposé par Michael D. Cohen et al. (1972) dans la
mesure où il accompagne cet autre mouvement qu’est celui de la formalisa-
tion du problème d’apprentissage de la machine et qui est réalisé d’une façon
à la fois un peu anarchique et un peu organisée. Ce problème d’apprentis-
sage se décompose en effet en une multitude de sous-problèmes qui émergent,
souvent de manière imprévue, dans le même temps que se nouent les rela-
tions qui associent le concepteur, l’implémenteur, la machine ainsi que les
environnements socio-matériels au sein desquels ils évoluent. Par exemple,
la société DataCrawler, lors de son lancement, souhaitait développer un sys-
tème de recommandation pour les e-commerçants qui permette d’hybrider les
algorithmes de filtrage collaboratif et de filtrage basé sur le contenu. Au fur et
à mesure des interactions qu’elle a entretenues avec ses clients, cette société
a progressivement redéfini le problème que devait résoudre sa technologie.
De telle sorte que celle-ci n’a plus eu pour seules fonctions de prédire les pré-
férences des consommateurs selon les propriétés des biens disponibles dans
les catalogues des e-commerçants (cf. les algorithmes de filtrage basé sur le
contenu) et selon les appétences des autres consommateurs (cf. les algorithmes
de filtrage collaboratif). Elle devait également permettre de recommander aux
consommateurs des produits en fonction de spécificités qui sont censées les
intéresser. La société DataCrawler a pour cela développé ce qu’elle appelle
Comment décrire les technologies d’apprentissage artificiel ? 95

un algorithme de similarité basé sur la rareté qu’elle n’avait pas imaginé éla-
borer au départ. Et l’histoire de la conception de cet algorithme recouvre une
multitude de choix qui compose in fine les activités de cadrage des environ-
nements d’apprentissage, de traitement et politique dont nous avons parlé en
amont, notamment pour permettre à la machine de repérer, dans les textes et
les photographies de présentations des produits, les spécificités qui sont cen-
sées plaire aux consommateurs.

De manière plus générale, notre étude montre ainsi que la cohérence de l’en-
chaînement des sous-problèmes qui forment le problème d’apprentissage n’est
pas organisée à l’avance : elle se construit durant le processus de concep-
tion. Il en est alors de même pour les connaissances métier qui y sont asso-
ciées : les processus de formalisation et de matérialisation de ces dernières ne
trouvent leur sens général que de manière progressive et constructive. Dans
certains cas, ce travail de mise en pertinence de la machine prédictive, c’est-
à-dire de signification du problème d’apprentissage qu’elle doit résoudre,
peut être relativement long. Par exemple, la société DataCognitiv (cf. S_03 ;
Document téléchargé depuis www.cairn.info - - - 132.247.249.253 - 05/12/2019 22:02 - © La Découverte

Document téléchargé depuis www.cairn.info - - - 132.247.249.253 - 05/12/2019 22:02 - © La Découverte


annexe 1, figure 1) a consacré plusieurs années de recherche, de développe-
ment et d’échange avec les e-commerçants intéressés par sa technologie pour
lui prêter le sens sans lequel sa mise en marché aurait été largement compro-
mise. À l’instar du processus d’économicisation du système de fabrication
de briquettes qu’étudie Madeleine Akrich (1989), cette signification doit être
comprise comme dynamique étant donné qu’elle n’a jamais été durablement
stabilisée au cours de l’histoire de la technologie. Pour autant, au moment où
nous avons effectué notre enquête, cette signification peut être résumée ainsi.
La machine prédictive développée par DataCognitiv se présente comme per-
tinente dans la mesure où elle doit permettre :

–– de personnaliser les environnements numériques marchands des consom-


mateurs en fonction de leurs comportements de navigation (c’est-à-dire de
l’ensemble des actions qu’ils effectuent sur les sites des e-commerçants et de
la manière dont elles s’enchaînent) et des situations qu’ils traversent (c’est-
à-dire des différents éléments qui permettent de définir les pages des sites
marchands qui sont en train d’être consultées) ;
–– de réaliser cette personnalisation sans mobiliser ce que DataCognitiv consi-
dère comme des données à caractère personnel, c’est-à-dire celles qui per-
mettent de renseigner les identités sociales des consommateurs, par exemple
leurs noms, prénoms, âges, sexes, adresses, ou encore, statuts professionnels ;
96 Réseaux n° 211/2018

–– de réaliser cette personnalisation sans tracer les consommateurs dans


le sens où le système conçu par DataCognitiv fonctionne essentiellement
selon une logique d’identification de situations de consommation, et non de
consommateurs ;
–– de réaliser cette personnalisation de façon à maximiser, de manière auto-
nome et systématique, les intérêts financiers des e-commerçants ;
–– de contrôler l’autonomie du système dans la mesure où les e-commerçants
peuvent paramétrer certaines dimensions de son travail inférentiel.

En référence aux travaux de Michel Callon (2017), la machine prédictive éla-


borée par DataCognitiv réalise donc un programme d’enquête qui est de part
en part traversé par diverses formes de normativité : cette technologie fait
exister une intelligence économique particulière qui reflète les visions que
ses concepteurs et ses implémenteurs se font de la manière dont il convient
d’automatiser une partie des activités de gestion de la relation client.
Document téléchargé depuis www.cairn.info - - - 132.247.249.253 - 05/12/2019 22:02 - © La Découverte

Document téléchargé depuis www.cairn.info - - - 132.247.249.253 - 05/12/2019 22:02 - © La Découverte


CONCLUSION

Un peu à la manière des humains, les machines prédictives n’opèrent pas


leurs activités d’apprentissage dans le vide. Leur travail inférentiel n’est
pas effectué sur une table rase. Pour apprendre à prédire, elles ont besoin
de cadre. Et c’est en ce sens que nous proposons de parler de socialisation
algorithmique. Si, à la différence des humains, les systèmes cognitifs que
recouvrent ces dispositifs ne sont en rien biologiques, ils sont, par contre,
de part en part culturels : chez les machines prédictives, rien n’est inné, tout
est acquis. Leur architecture cognitive n’est pas préconfigurée par la nature,
mais par des collectifs d’humains qui font société. Cela veut dire que ces tech-
nologies sont incapables d’atteindre un niveau de connaissance strictement
a-normatif. Bien entendu, leur autonomie de calcul, couplée aux mégadon-
nées, leur permet d’adopter une posture de pluralisme prédictif qui participe
à l’institution d’une certaine « liberté » de calcul. Pour autant, nous avons
montré que ce pluralisme fait l’objet d’une préparation qui est opérée lors
des activités de cadrage des environnements d’apprentissage, de traitement
et politique. Il nous semble alors qu’en focalisant l’attention sur ces trois
activités de cadrage, notre étude doit pouvoir permettre de mieux saisir les
controverses qui sont associées au développement des machines à prédire.
Car ce sont ces activités de cadrage qui sont respectivement en jeu lorsque les
professionnels et les scientifiques dénoncent le fait que :
Comment décrire les technologies d’apprentissage artificiel ? 97

–– les machines prédictives apprennent et, par voie de conséquence, repro-


duisent des biais de représentation, par exemple, sexiste, ou encore, raciste
(cf. le cadrage de l’environnement d’apprentissage ; O’Neil, 2016) ;
–– les apprentissages de ces machines sont, a minima dans certains cas, extrê-
mement difficiles à comprendre pour les humains7 (cf. le cadrage de l’envi-
ronnement de traitement) ;
–– ces machines ont pour principale fonction d’économiciser les compor-
tements des humains (et plus particulièrement leur attention ; cf. Kessous,
2012), c’est-à-dire de les transformer en une source de plus-value ou, si l’on
préfère, en marchandises (cf. le cadrage de l’environnement politique).

En outre, en décrivant les activités de conception des machines à prédire à


l’aide des trois activités de cadrages susmentionnées, nous avons cherché à
pointer comment, à la différence des intelligences artificielles traditionnelles,
ces technologies n’encapsulent plus vraiment de connaissances générales sur
ce qu’est le marché, ou encore, la société. Leurs intelligences sont produites
Document téléchargé depuis www.cairn.info - - - 132.247.249.253 - 05/12/2019 22:02 - © La Découverte

Document téléchargé depuis www.cairn.info - - - 132.247.249.253 - 05/12/2019 22:02 - © La Découverte


de façon locale et relationnelle dans la mesure où elles sont intriquées aux
ressources et aux contraintes que connaissent ceux qui intègrent ces machines
au sein de leurs organisations. Cet attachement renforcé avec les enjeux opé-
rationnels a alors un coût : celui du détachement avec les connaissances les
plus fondamentales que les hommes ont pu créer dans le domaine des SHS.
Autrement dit, cette socialisation algorithmique que les humains produisent
pour encadrer le travail inférentiel effectué par les machines à prédire est
d’abord conçue pour fabriquer une intelligence de type pragmatique. Aussi, si
cette nouvelle forme de socialisation participe à l’institution d’un pluralisme
prédictif qui est à la fois nouveau et intéressant, elle contribue en retour à
l’instauration d’une économie politique qui n’est, quant à elle ni très nova-
trice ni très élégante : les machines à prédire doivent généralement permettre
d’optimiser des critères de performance gestionnaire qui sont extrêmement
conventionnels. Nous souhaitons en ce sens insister sur l’importance que
recouvre, du point de vue de l’étude que nous venons de présenter, le troi-
sième type de dénonciation mentionné dans le paragraphe précédent. Bien
sûr, le paradoxe des conséquences de Max Weber (1959) nous a appris que les
externalités négatives et positives d’un phénomène social sont difficiles, pour

7.  Le programme TRANSALGO conduit par l’Institut National de Recherche en Informatique


et en Automatique (INRIA) est, notons-le, une initiative intéressante pour faire face à ce
problème.
98 Réseaux n° 211/2018

ne pas dire impossibles, à anticiper. Pour autant, rien n’interdit les humains
de se questionner sur la légitimité de cette socialisation algorithmique que les
acteurs socioéconomiques conçoivent pour cadrer l’autonomie des machines
prédictives qu’ils développent et mobilisent.
Document téléchargé depuis www.cairn.info - - - 132.247.249.253 - 05/12/2019 22:02 - © La Découverte

Document téléchargé depuis www.cairn.info - - - 132.247.249.253 - 05/12/2019 22:02 - © La Découverte


Comment décrire les technologies d’apprentissage artificiel ? 99

RÉFÉRENCES

AKRICH M. (1987), Comment décrire les objets techniques ? », Techniques et


culture, n° 9, pp. 49-64.
AKRICH M. (1989), « La construction d’un système socio-technique : esquisse pour
une anthropologie », Anthropologie et sociétés, vol. 13, n° 2, pp. 31-54.
AURAY N. (2011), « Les technologies de l’information et le régime exploratoire »,
in P. VAN ANDEL, D. BOURSIER (dir.), La sérendipité. Le hasard heureux, Paris,
Hermann, pp. 329-343.
BARREY S. (2004), Le travail marchand dans la grande distribution alimentaire : la
définition des relations marchandes, Toulouse, Université Toulouse Mirail.
BENBOUZID B. (2017), Des crimes et des séismes : la police prédictive entre
science, technique et divination, Réseaux, n° 206, pp. 95-213.
BERTHELOT J.-M. (1990), L’intelligence du social : le pluralisme explicatif en
sociologie, Paris, Presses universitaires de France.
Document téléchargé depuis www.cairn.info - - - 132.247.249.253 - 05/12/2019 22:02 - © La Découverte

Document téléchargé depuis www.cairn.info - - - 132.247.249.253 - 05/12/2019 22:02 - © La Découverte


BOULLIER D. (2016), Sociologie du numérique, Paris, Armand Colin.
CALLON M. (2017), L’emprise des marchés : comprendre leur fonctionnement pour
pouvoir les changer, Paris, La Découverte.
CARDON D. (2015), À quoi rêvent les algorithmes. Nos vies à l’heure des big data,
Paris, Seuil.
COHEN M. D., MARCH J. G., OLSEN, J. P. (1972), « A garbage can model of orga-
nizational choice », Administrative Science Quarterly, vol. 17, n° 1, pp. 1-25.
COLL S. (2014). Surveiller et récompenser. Les cartes de fidélité qui nous gou-
vernent, Genève, Seismo.
CORNUÉJOLS A., MICLET L. (2010), Apprentissage artificiel : concepts et algo-
rithmes, Paris, Eyrolles.
DAGIRAL É., PARASIE S. (2017), « La “science des données” à la conquête des
mondes sociaux : ce que le big data doit aux épistémologies locales », in P.-M.
MENGER, S. PAYE (dir.), Big data et traçabilité numérique : les sciences sociales
face à la quantification massive des individus, Paris, Collège de France, pp. 85-104.
DESROSIÈRES A. (1993), La politique des grands nombres : histoire de la raison
statistique, Paris, La Découverte.
DUFLO E. (2009), Expérience, science et lutte contre la pauvreté, Paris, Fayard.
GROSSETTI M. (2006), « Trois échelles d’action et d’analyse. L’abstraction comme
opérateur d’échelle », L’Année sociologique, vol. 56, n° 2, pp. 285-307.
FULLER M. (2008), Software Studies: a Lexicon, Cambridge MA, MIT Press.
100 Réseaux n° 211/2018

KESSOUS E. (2012), L’attention au monde : sociologie des données personnelles à


l’ère numérique, Paris, Armand Colin.
MACKENZIE A. (2006), Cutting Code: software and sociality, New York, Peter
Lang.
MANOVICH L. (2001), The Language of New Media, Cambridge MA, MIT Press
MARCUS G. E. (1995), « Ethnography in/of the world system: the emergence of
multi-sited ethnography », Annual Review of Anthropology, n° 24, pp. 95-117.
MEADEL C., SIRE G. (2017), « Les sciences sociales orientées programmes. État
des lieux et perspectives », Réseaux, n° 206, pp. 9-34.
OLLION E., BOELAERT J. (2015), « Au-delà des big data : les sciences sociales et
la multiplication des données numériques », Sociologie, vol. 6, n° 3, http://sociologie.
revues.org/2613.
O’NEIL C. (2016), Weapons of math destruction: how big data increases inequality
and threatens democracy, New York, Crown Publishers.
PICKERING A. (1995), The mangle of practice: time, agency, and science, Chicago,
University of Chicago Press.
Document téléchargé depuis www.cairn.info - - - 132.247.249.253 - 05/12/2019 22:02 - © La Découverte

Document téléchargé depuis www.cairn.info - - - 132.247.249.253 - 05/12/2019 22:02 - © La Découverte


ROUVROY A., BERNS T. (2013), « Gouvernementalité algorithmique et perspec-
tives d’émancipation. Le disparate comme condition d’individuation par la rela-
tion ? », Réseaux, n° 177, pp. 163-196.
SIMONDON G. (1989 [1958]), Du mode d’existence des objets techniques, Paris,
Aubier.
WEBER M. (1959 [1919]), Le savant et le politique, Paris, Plon.
Comment décrire les technologies d’apprentissage artificiel ? 101

ANNEXES

Annexe 1. Présentation des matériaux d’enquête

Afin d’effectuer notre enquête, nous avons commencé par réaliser trois pro-
jets de collaboration avec trois start-up engagées dans le développement de
machines prédictives. Sur ces trois projets, un a donné lieu à un partenariat de
dix-huit mois (cf. figure 1 ; S_01). Ces différents projets de collaboration et
partenariat nous ont permis de réaliser des entretiens, des observations et de
recueillir des documentations sur la manière dont ces entreprises ont conçu ce
qu’elles appellent leurs solutions.

Figure 1. Présentation des startups enquêtées


Document téléchargé depuis www.cairn.info - - - 132.247.249.253 - 05/12/2019 22:02 - © La Découverte

Document téléchargé depuis www.cairn.info - - - 132.247.249.253 - 05/12/2019 22:02 - © La Découverte

Source : auteur.

Afin de mettre à l’épreuve les explorations effectuées dans le cadre des projets
de collaboration et partenariat susmentionnés, nous avons conduit une cam-
pagne d’entretiens semi-directifs auprès de treize professionnels des données
(i.e., datascientists ; cf. figure 2). Précisons que nous avons recruté un panel
d’enquêtés exerçant dans des secteurs économiques divers afin de nous ouvrir
la possibilité d’identifier des régularités dans les activités de conception des
102 Réseaux n° 211/2018

machines à prédire, peu importe leur domaine d’application. Autrement dit,


nous avons effectué cette campagne d’entretiens dans le but de compléter les
données recueillies lors des projets de collaboration et partenariat présentés
plus haut. Par le biais des représentations exprimées par les professionnels
interviewés, ces entretiens nous ont en effet permis d’accéder à plusieurs
dizaines de cas de conception de machines à prédire. Si les projets de colla-
boration et partenariat que nous avons réalisés étaient une manière d’explorer
de façon approfondie les activités de fabrication d’un nombre restreint de ces
technologies, la campagne d’entretiens que nous avons conduite avait pour
finalité d’examiner un nombre de cas plus important et de nous donner, par là
même, les moyens de repérer les régularités qui structurent ces mêmes activi-
tés de conception.
Document téléchargé depuis www.cairn.info - - - 132.247.249.253 - 05/12/2019 22:02 - © La Découverte

Document téléchargé depuis www.cairn.info - - - 132.247.249.253 - 05/12/2019 22:02 - © La Découverte


Comment décrire les technologies d’apprentissage artificiel ? 103

Figure 2. Présentation des professionnels enquêtés


Document téléchargé depuis www.cairn.info - - - 132.247.249.253 - 05/12/2019 22:02 - © La Découverte

Document téléchargé depuis www.cairn.info - - - 132.247.249.253 - 05/12/2019 22:02 - © La Découverte

Source : auteur.
104 Réseaux n° 211/2018

Annexe 2. Schéma de présentation de la conception d’une machine à


prédire

Figure 3. La fabrication d’une machine prédictive


Document téléchargé depuis www.cairn.info - - - 132.247.249.253 - 05/12/2019 22:02 - © La Découverte

Document téléchargé depuis www.cairn.info - - - 132.247.249.253 - 05/12/2019 22:02 - © La Découverte


Source : auteur.

Vous aimerez peut-être aussi