Vous êtes sur la page 1sur 31

ABSTRACTION, EXPROPRIATION, ANTICIPATION

Note généalogique sur les visions machiniques de la gestualité

Fernanda Bruno, Maurício Lissovsky et Icaro Ferraz Vidal Junior

La Découverte | « Réseaux »

2018/5 n° 211 | pages 105 à 135


ISSN 0751-7971
ISBN 9782348040689
Article disponible en ligne à l'adresse :
--------------------------------------------------------------------------------------------------------------------
https://www.cairn.info/revue-reseaux-2018-5-page-105.htm
--------------------------------------------------------------------------------------------------------------------
Document téléchargé depuis www.cairn.info - - - 201.17.100.29 - 01/05/2020 03:12 - © La Découverte

Document téléchargé depuis www.cairn.info - - - 201.17.100.29 - 01/05/2020 03:12 - © La Découverte


Distribution électronique Cairn.info pour La Découverte.
© La Découverte. Tous droits réservés pour tous pays.

La reproduction ou représentation de cet article, notamment par photocopie, n'est autorisée que dans les
limites des conditions générales d'utilisation du site ou, le cas échéant, des conditions générales de la
licence souscrite par votre établissement. Toute autre reproduction ou représentation, en tout ou partie,
sous quelque forme et de quelque manière que ce soit, est interdite sauf accord préalable et écrit de
l'éditeur, en dehors des cas prévus par la législation en vigueur en France. Il est précisé que son stockage
dans une base de données est également interdit.

Powered by TCPDF (www.tcpdf.org)


ABSTRACTION, EXPROPRIATION,
ANTICIPATION

Note généalogique sur les visions machiniques


de la gestualité

Fernanda BRUNO
Maurício LISSOVSKY
Icaro FERRAZ VIDAL JUNIOR
Document téléchargé depuis www.cairn.info - - - 201.17.100.29 - 01/05/2020 03:12 - © La Découverte

Document téléchargé depuis www.cairn.info - - - 201.17.100.29 - 01/05/2020 03:12 - © La Découverte

DOI: 10.3917/res.211.0105
L
es machines contemporaines – d’information, de communication,
de surveillance et de divertissement – évoluent progressivement
vers le domaine de la gestualité. D’une part, les appareils électro-
niques et numériques sont de plus en plus guidés par des gestes qui s’incor-
porent progressivement à notre répertoire quotidien : les différentes façons
de faire glisser les doigts sur les écrans pour déclencher des fonctions spé-
cifiques ; les mouvements orientés des capteurs qui activent les commandes
de portes, de lumières, de robinets, etc. D’autre part, les machines sont pro-
grammées pour reconnaître, détecter et « lire » nos gestes selon des schémas
qui permettent de prédire la conduite et les actions futures. Il existe tout un
champ de la vision par ordinateur qui se tourne vers la détection et la pré-
diction des mouvements et des gestes, particulièrement dans le domaine de
Document téléchargé depuis www.cairn.info - - - 201.17.100.29 - 01/05/2020 03:12 - © La Découverte

Document téléchargé depuis www.cairn.info - - - 201.17.100.29 - 01/05/2020 03:12 - © La Découverte


la sécurité. Il s’agit là d’une reconfiguration non seulement dans le domaine
du geste, mais aussi de la vision, notamment de la vision machinique1. En
effet, la gestualité est l’un des domaines les plus prometteurs de la recherche
et du développement de la vision par ordinateur et des caméras dites intel-
ligentes2. La prolifération des appareils qui possèdent la fonction gesture
recognition atteste la place centrale du geste dans les priorités que se donnent les
développeurs3.

Bien que l’intensification des rapports entre la machine et le geste s’accé-


lère aujourd’hui, cette relation a une histoire ancienne. Reprendre l’his-
toire moderne de ces relations nous permet de comprendre la progressive
absorption du geste par l’image technique, d’abord par la photographie et
plus tard par le cinéma, et maintenant par la vision computationnelle. Nous
proposons de montrer dans cet article comment la décomposition, l’inter-
prétation et l’anticipation des mouvements intéressent, depuis la modernité,

1. Nous concevons comme vision machinique une série d’appareils de vision automatisés
(caméras et vidéos intelligentes, vision par ordinateur, etc.).
2.  Caméras qui fonctionnent par des algorithmes (parfois couplés à des capteurs de mouve-
ment et de présence), visant la détection automatisée de schémas dans l’image.
3.  Selon une étude publiée par l’agence Juniper (Moar, 2016), nous aurons un demi-million
d’appareils disponibles pour détecter ou suivre les gestes d’ici jusqu’à 2020.
108 Réseaux n° 211/2018

différents domaines de connaissance et d’application : la sécurité, l’industrie,


la psychiatrie et la science de l’art. Nous soulignons dans cette note généa-
logique deux vecteurs de transformation dans les visions machiniques de la
gestualité.

Le premier est une progressive abstraction et expropriation des gestes. Nous


remarquerons comment, à travers la photographie et le cinéma, les gestes ont
été extraits des corps et des individus en vue d’élaborer une connaissance
spécifique à leur sujet et surtout en vue de les rendre plus productifs, expres-
sifs ou efficaces. Il y a là un processus d’appropriation du geste par l’ap-
pareil machinique (le caméscope ou la machine industrielle) auquel ils vont
finalement appartenir, c’est-à-dire, selon Adorno, suivre « les exigences des
choses » (Adorno, 2005, p. 40).

Le second est un effacement relatif de l’identité et de la subjectivité lorsque le


biais prédictif de l’image technique est renforcé. La décomposition du mou-
vement et la lecture machinique des gestes changent de cible. Surtout dans le
domaine de la sécurité et de la surveillance, la dimension prédictive se ren-
Document téléchargé depuis www.cairn.info - - - 201.17.100.29 - 01/05/2020 03:12 - © La Découverte

Document téléchargé depuis www.cairn.info - - - 201.17.100.29 - 01/05/2020 03:12 - © La Découverte


force en s’éloignant du paradigme de l’identification qui était dominant dans
la modernité. La photographie et le cinéma promettaient l’enregistrement
de gestes visant à reconnaître les criminels. L’expropriation progressive des
gestes par les appareils modernes a créé des conditions pour que les caméras
intelligentes actuelles fassent la promesse d’éviter de futures infractions, sans
nécessairement passer par l’identification. Les systèmes prédictifs actuels
basés sur la détection algorithmique des gestes et des mouvements se tournent
vers la reconnaissance de modèles et d’anomalies qui permettent de prédire et
d’intervenir sur des actions et des comportements sans connaissance préalable
de l’identité de leurs « auteurs ».

Nous allons analyser ces vecteurs de transformation dans les trois sections
de notre article. La première est consacrée à la façon dont la reproductibilité
technique de l’image – photographique et cinématographique – est mise au
service de la réplication du geste, de son abstraction et de son expropriation
dans plusieurs domaines : sécurité et autodéfense, science, art et industrie.
Ensuite, nous verrons comment la matrice du modèle machinique contempo-
rain, visant à la prédiction des comportements, est partiellement définie par la
cybernétique. Enfin, nous analysons les investissements machiniques actuels
sur la gestualité, montrant une fois de plus leur transversalité dans différents
domaines (design, communication, divertissement, marketing, sécurité et
surveillance). Nous porterons notre attention sur les dispositifs de vision par
Abstraction, expropriation, anticipation109

ordinateur et les caméras intelligentes basées sur la détection et la lecture auto-


matisée de gestes et de mouvements, en cherchant à comparer les machines
modernes d’anticipation et d’identification avec les machines contemporaines
de prédiction et de contrôle algorithmique de la conduite.

L’IMAGE VIVANTE DU GESTE ET SA REPRODUCTIBILITÉ


TECHNIQUE

Dans un article paru dans La Vie au Grand Air le 6 décembre 1906, le cham-
pion d’escrime Jean-Joseph Renaud mettait le lecteur en garde contre les
« mauvais trucs » de la bande des « Apaches », qui effrayaient les gentils-
hommes bourgeois dans les rues de Paris : comment savoir si ce citoyen
qui traverse la route et nous salue de son chapeau ne se penchera pas trop
pour nous cogner d’un violent coup de tête4 ? Dans les premières années
du XXe siècle, « l’apachisme » était considéré comme une grande menace
pour la vie normale des Parisiens. Chez les « Apaches », tout était gestes et
ruses, pas seulement l’approche, les coups, mais aussi une danse particu-
Document téléchargé depuis www.cairn.info - - - 201.17.100.29 - 01/05/2020 03:12 - © La Découverte

Document téléchargé depuis www.cairn.info - - - 201.17.100.29 - 01/05/2020 03:12 - © La Découverte


lière, probablement inspirée par le tango argentin, dans laquelle le couple
simulait un combat de rue. L’analyse minutieuse de ses mouvements (ses
« trucs »), à la fois pour la reconnaissance et pour l’autodéfense, était un sujet
récurrent dans la presse. Cette analyse est, dès le début, inséparable d’une
machination, puisque l’objectif principal d’un Apache est de « dégringoler
leurs victimes » : en s’approchant pour demander des informations ou du
feu, « il s’avance timidement, la mine très humble », mais soudain le rythme
change, le chapeau est projeté contre le visage, il adresse un violent coup de
tête dans le ventre et les mains essaient de ramasser les jambes de la victime
et de la faire tomber. Le découpage de ces mouvements (Image 1), avec l’aide
de la photographie, était considéré comme une méthode très efficace pour
diffuser des techniques d’autodéfense, qui, à leur tour, étaient basées sur les
principes mécaniques de l’action et de la réaction (Renaud, 1906, p. 948).

4. http://gallica.bnf.fr/ark:/12148/bpt6k9607877r/f82.item
110 Réseaux n° 211/2018

Image 1. J.-J. Renaud, « Trucs d’apaches et leur Parades », 1906

Source : Gallica, Biliothèque nationale de France.

La décomposition, l’interprétation et l’anticipation des mouvements n’inté-


ressaient pas seulement les défenseurs de l’ordre public. Dans la première
moitié du XXe siècle, les rapports entre geste et intention étaient des sujets
Document téléchargé depuis www.cairn.info - - - 201.17.100.29 - 01/05/2020 03:12 - © La Découverte

Document téléchargé depuis www.cairn.info - - - 201.17.100.29 - 01/05/2020 03:12 - © La Découverte


de réflexion dans différents domaines de connaissance. Quand l’historien
de l’art Erwin Panofsky essaie d’expliquer les fondements de sa méthode
de recherche – qui privilégie le sens des œuvres d’art au détriment de leur
forme –, dans les premières pages de Studies in Iconology (1939), il ne se
sert pas comme exemple d’une œuvre du canon occidental, mais de l’évé-
nement d’un « familier » qui « me salue dans la rue en levant son chapeau »
(Panofsky, 1972, p. 3). Panofsky considère qu’un geste isolé tel qu’une salu-
tation polie ne peut pas manifester tout cela « compréhensiblement », mais
seulement « symptomatiquement » : « Nous ne pouvons pas construire un
portrait mental d’un homme en nous basant sur une seule action, mais en
coordonnant un grand nombre d’actions similaires et en les interprétant selon
nos informations générales de l’époque, la nationalité, la classe, les traditions
intellectuelles de ce monsieur et ainsi de suite » (ibid., p. 5).

L’insuffisance prédictive du geste pris en lui-même est reconnue. Il faut


qu’il soit associé à un vaste ensemble d’informations pour devenir pleine-
ment lisible. Une lisibilité pourtant qui n’est possible que quand la dimension
expressive ou conventionnelle du geste est dépassée pour approcher sa dimen-
sion symptomatique, inconsciente (Panofsky, 1972, p. 7). Le cinéma a sans
doute été le grand responsable de la diffusion de l’idée selon laquelle le geste
possédait une dimension inconsciente. Sans le découpage des prises ciné-
matographiques il est peu probable que les récits de Renaud et de Panofsky,
Abstraction, expropriation, anticipation111

provenant de champs si différents, eussent marché sur le même trottoir, se


saluant réciproquement d’un léger coup de chapeau. En effet, depuis les
expériences des chronophotographes comme Étienne-Jules Marey, Edward
Muybridge et Albert Londe, on assiste à une véritable prise de conscience de
la lisibilité des gestes dans des domaines aussi disparates que l’industrie, la
psychiatrie et la science de l’art. En 1931, Walter Benjamin donne enfin un
nom à ce phénomène – « inconscient optique ».

« On aperçoit en général le mouvement de l’homme qui marche, mais on


n’aperçoit rien de son attitude à la fraction de seconde où il fait un pas. La pho-
tographie nous montre cette attitude à travers ses recours auxiliaires : ralenti,
agrandissement. Seule la photographie révèle cet inconscient optique, comme
seule la psychanalyse révèle l’inconscient pulsionnel » (Benjamin, 1985, p. 94).

Il n’est donc pas surprenant que dès le premier Congrès de Police judiciaire
internationale en 1914 à Monaco, dans lequel la « fiche parisienne » de
Bertillon est prise comme modèle pour créer une « fiche signalétique interna-
tionale », une des participantes, Agathe-Berthe Dyvrande, avocate à la Cour
Document téléchargé depuis www.cairn.info - - - 201.17.100.29 - 01/05/2020 03:12 - © La Découverte

Document téléchargé depuis www.cairn.info - - - 201.17.100.29 - 01/05/2020 03:12 - © La Découverte


d’appel de Paris, ait suggéré que les caméras cinématographiques pourraient
être utilisées dans les laboratoires d’identification criminelle pour filmer les
individus dans « leurs attitudes habituelles ». Ce Congrès, dont les actes n’ont
été publiés qu’en 1926 à cause de la guerre, a fait apparaître un effort impres-
sionnant pour créer une plateforme européenne commune pour combattre le
crime ; après tout, « L’univers est un, et les criminels ne s’arrêtent pas aux
barrières que dressent la politique ou l’histoire » (Premier congrès…). Mais le
congrès est aussi le chant du cygne du bertillonnage comme système d’iden-
tification et la délégation française accepte que la grande archive judiciaire
universelle soit classifiée selon le système dactyloscopique argentin, créé par
Vucetich, et déjà utilisé en plusieurs pays du monde (ibid., p. 47).

Dans ce contexte, le propos présenté par Mlle Dyvrande cherchait à rétablir


le caractère pionnier perdu par la criminologie française. Ce n’était pas, ori-
ginellement, une idée de la police, mais d’Albert Gaveau, directeur du Pathé-
Journal, qui l’a soumis à l’attention de Célestin Hennion, chef de la Police de
Paris (entre 1913 et 1914) qui avait créé la première école de formation des
policiers, en 1910. Le Pathé-Journal, lancé en 1909 et pionnier dans le domaine
des actualités cinématographiques, proposait également de réaliser des films
qui serviraient d’entraînement aux policiers dans cette école. Les députés ont
adhéré avec enthousiasme à cette idée : des films réalisés en Russie montraient,
par exemple, comment le comportement de la foule dépendait de la position
112 Réseaux n° 211/2018

des agents de sécurité ; comment comparer les bonnes et les mauvaises atti-
tudes des policiers ; comment les preuves sont collectées dans une scène de
crime ; ou encore, comment illustrer le modus operandi de certains criminels
(ibid., p. 93). Apparemment, le Pathé-Journal a produit quelques images qui,
disparues, n’ont pas été montrées à Monte-Carlo par Mlle Dyvrande. Elles ont
été remplacées par une rhétorique enthousiaste. L’avocate reconnaissait que la
photographie facilite la recherche et la reconnaissance, « mais elle n’est que
la représentation d’un buste, d’une face, d’un profil – il manque l’animation,
la vie, qui permet de découvrir les attitudes, les gestes familiers, les signes
particuliers, manies, tics, de l’individu » (ibid., p. 209). Dans la rigidité de la
pose du studio anthropométrique, les « attitudes naturelles » seraient perdues.
Le cinéma à son tour produirait une « image concrète vivante » au lieu seule-
ment de « mots abstraits inscrits sur une fiche peu évocatrice »5. Le caractère
vivant de l’image était indissociable de la nature intrinsèquement mécanique
du mouvement, une fois qu’avec le concours du cinématographe les gestes
pouvaient « être lentement décomposés et étudiés » (ibid., p. 210). La valeur
de la proposition de Mlle Dyvrande était tellement évidente que le président
du Congrès déclara : « C’est un progrès. Je ne vois pas pourquoi on n’accep-
Document téléchargé depuis www.cairn.info - - - 201.17.100.29 - 01/05/2020 03:12 - © La Découverte

Document téléchargé depuis www.cairn.info - - - 201.17.100.29 - 01/05/2020 03:12 - © La Découverte


terait pas » (ibid., p. 93). Un mois après, le journal Le Film informait que la
police de Paris utiliserait le cinéma dans un nouveau cours pour former ses
« agents de la paix ». Grâce à Pathé, l’agent apprendra à protéger « l’enfant
égaré », « le vieillard infirme » ou comment conduire en sécurité les « alié-
nés dangereux ». La revue salue cette initiative : « L’avenir confirmera que le
cinéma est seul capable d’instruire sans ennuyer » (Bernard, 1914, p. 7).

Dans ce qui a peut-être été la première formulation de l’usage systématique


de l’image en mouvement à des fins policières, nous observons clairement
deux tendances antagoniques : la première marque la décomposition du mou-
vement qui conduit à l’abstraction du geste et l’autre la recomposition qui
essaie de retrouver l’image vivante. Cependant, toutes les deux sont claire-
ment subordonnées au paradigme de l’identification. Dans un contexte où la

5.  Comme cela a déjà été remarqué, le sujet de la production d’une « image vivante » à par-
tir des éléments mécaniquement décomposés apparaît pour la première fois dans le roman
d’Auguste Villiers de L’Isle-Adam, L’Ève future, de 1880. Dans un beau paysage, l’inventeur
promet à son ami, fou amoureux, de s’approprier « mathématiquement » et « avec les recours
de la science » de la grâce des gestes, du parfum de la chair, du timbre vocal, de la lumière des
yeux, des mouvements et de la façon de marcher et de toute autre caractéristique qui fait d’une
femme la femme idéale, pour finalement la reproduire avec exactitude, « avec l’aide sublime de
la lumière » (Oubiña, 2009, p. 28).
Abstraction, expropriation, anticipation113

fiche signalétique anthropométrique perdait rapidement sa place en faveur du


modèle anglo-saxon, qui privilégiait et réduisait l’identification judiciaire aux
empreintes digitales, les défenseurs de Bertillon, en faisant appel au cinéma,
se sont attachés à la dimension ineffable du geste, c’est-à-dire, à la « vie »
elle-même.

Trois décennies après le Congrès, Léon Lerich, un prestigieux juge d’instruc-


tion adjoint au Tribunal de la Seine, se plaint du fait que le projet proposé
par Mlle Dyvrande n’ait pas été suivi (Lerich, 1949, p. 65). En fait, le pro-
cessus d’abstraction du geste, sans lequel les machines prédictives contem-
poraines ne sauraient comment opérer, a avancé beaucoup plus lentement
dans la police que dans d’autres domaines. Depuis le milieu des années 1870,
la photographie et la chronophotographie étaient au service de l’élaboration
de la « grande crise hystérique », comme une succession de figures et de
poses affichées par les patients du Dr Charcot (Didi-Huberman, 2003). D’un
patient, Charcot dira, par exemple, qu’il « semble un automate tiré par un
fil » (Agamben, 2000, p. 51). Dans la décennie suivante, en 1889, Mauricio
Vidal Portman initie son travail exhaustif de documentation des Andamanais
Document téléchargé depuis www.cairn.info - - - 201.17.100.29 - 01/05/2020 03:12 - © La Découverte

Document téléchargé depuis www.cairn.info - - - 201.17.100.29 - 01/05/2020 03:12 - © La Découverte


où des dizaines de photographies sont employées pour « montrer chaque
étape de la production d’une arme, etc., si clairement […] qu’il serait pos-
sible à un ouvrier européen d’imiter son travail » (Pinney, 2011, p. 38). La
reproductibilité technique de l’image est mise au service de la réplication
du geste. La décomposition du mouvement assume ici clairement son carac-
tère d’expropriation. On y attendait donc que la réalisation la plus réussie
de cette décomposition du geste – comme expropriation et abstraction – ait
lieu dans le domaine de l’« administration scientifique » du travail industriel,
dans le cadre du taylorisme. Dans les cyclographies de Frank B. Gilbreth, la
trajectoire des gestes est marquée par des lumières attachées aux extrémités
des membres des ouvriers (Image 2). Une double machination apparaît ici :
la première concerne le corps, dont les traits individuels, en particulier les
caractéristiques du visage, sont effacées, pour que la cinématique du geste
soit enregistrée ; la deuxième est le contrepoint des lignes lumineuses face
au diagramme anthropométrique – d’usage courant dans les études anthro-
pologiques ainsi que dans l’identification des criminels. La projection sur le
diagramme ne vise pas ici la singularité d’un individu ou la définition d’un
type, mais la cartographie des « mouvements maladroits inefficaces ou mal
dirigés » qui « ne laissent aucune trace tangible ou visible derrière eux »
(Oubiña, 2009, p. 36), mais qui causent des pertes au procès industriel. Le
dessin du geste efficace est le résultat non seulement d’une dépersonnalisa-
tion de l’ouvrier, mais aussi d’une épuration de toutes ses maladresses et tics
114 Réseaux n° 211/2018

Image 2. Frank Gilbreth. Cyclographie. Étude sur l’efficacité du mouvement


Document téléchargé depuis www.cairn.info - - - 201.17.100.29 - 01/05/2020 03:12 - © La Découverte

Document téléchargé depuis www.cairn.info - - - 201.17.100.29 - 01/05/2020 03:12 - © La Découverte


Copyright : © National Museum of American History.

idiosyncratiques qui, dans le contexte de la ligne de production, contribuent


au gaspillage de temps et de matériel. La différence par rapport au paradigme
de l’identification se présente ici clairement, parce que ce sont ses mêmes
maladresses, grimaces et tics qu’Agathe Dyvrande avait pour but d’enregis-
trer pour mieux reconnaître les criminels.

Dans les usages postérieurs de la technique créée par Gilbreth, l’ambivalence


du registre visuel du geste est très clairement aperçue. En associant la longue
exposition à la lumière stroboscopique (fondamentalement une combinaison
des procédures de Gilbreth et Jules-Marey), Gjion Mili a fait le portrait non
seulement des ouvriers, mais aussi des chefs d’orchestre, des danseurs, des
Abstraction, expropriation, anticipation115

joueurs de jazz et, dans sa séquence la plus connue, du peintre Pablo Picasso
(Image 3). Le geste gaspillé dans la ligne de production devient maintenant

Image 3. Gjion Mili. Pablo Picasso, peintre, 1949


Document téléchargé depuis www.cairn.info - - - 201.17.100.29 - 01/05/2020 03:12 - © La Découverte

Document téléchargé depuis www.cairn.info - - - 201.17.100.29 - 01/05/2020 03:12 - © La Découverte

Copyright : © Gettyimages.
116 Réseaux n° 211/2018

l’excès – de talent et de mouvement – qui singularise un artiste et son œuvre.


Une année avant cette photographie, Sigfried Giedion avait observé, dans
son essai sur la mécanisation de la vie quotidienne, la ressemblance entre les
cyclographies de Gilbreth et les peintures de Paul Klee, Vassily Kandinsky et
Joan Miró, en signalant que pour le scientifique les « trajectoires » sont deve-
nues des « entités avec des lois indépendantes » alors que pour les peintres la
« pure forme du mouvement s’est convertie en objet artistique de plein droit »
(Giedion, 1948, pp. 104-113).

Parmi les nombreux personnages montrés par Mili, il en est un qui nous
intéresse particulièrement : il s’agit de l’agent du FBI Delf « Jelly » Bryce
(Image 4). Considéré comme le tireur le plus rapide de l’Amérique – il était
capable de sortir un revolver et de tirer, en touchant la cible, en 0.4 seconde
à peine. D’après la légende, dans les années 1940, il suffisait d’annoncer
l’arrivée de « Jelly » sur le lieu du crime pour que les bandits se rendent
immédiatement. Au contraire de Picasso dont le geste suggère imagination et
spontanéité, l’action de Bryce est minutieuse et millimétrique. Il avait l’habi-
tude de s’entraîner à dégainer pendant des heures devant le miroir où il cher-
Document téléchargé depuis www.cairn.info - - - 201.17.100.29 - 01/05/2020 03:12 - © La Découverte

Document téléchargé depuis www.cairn.info - - - 201.17.100.29 - 01/05/2020 03:12 - © La Découverte


chait à être plus rapide que lui-même.

Le peintre ainsi que le détective ont leurs gestes emprisonnés par la photo-
graphie dans son « étrange espace confiné » (Price, 1994), mais l’image de
l’agent Bryce devant son miroir nous est, aujourd’hui, trop familière : « Are
you talking to me ? » – aurait-il dit à son double, en défi, comme Robert de
Niro dans Taxi Driver, de Martin Scorsese. Parce que son espace de confi-
nement n’est autre que l’espace filmique lui-même, tel qu’il est originelle-
ment constitué par l’alternance entre plan et contre-plan. Walter Benjamin
avait déjà signalé que l’invention de la photographie avait été aussi impor-
tante pour la criminologie moderne que la presse l’avait été pour la littéra-
ture – et, évidemment, pour la combinaison des deux dans le développement
du polar. Désormais, remarque-t-il, « les efforts pour capturer un homme dans
son discours et dans ses actions ne se sont pas arrêtés » (Benjamin, 2003,
p. 27). Capturé par le miroir cinématographique, l’agent Bryce est condamné
à répéter à l’infini le même geste dans ce duel imaginaire. Comme Giorgio
Agamben l’a suggéré avec acuité, « pour les êtres humains qui ont perdu
tout sens de naturalité, chaque geste singulier devient un destin » (Agamben,
2000, p. 52). L’ambivalence de l’enregistrement visuel du geste est aussi mise
en relief par le philosophe, pour qui « chaque image est animée par une pola-
rité antinomique : d’un côté, les images sont la réification et l’oblitération
d’un geste […] ; de l’autre, elles préservent la dynamis intacte » (ibid., p. 54).
Abstraction, expropriation, anticipation117

Image 4. Gjion Mili. Delf Bryce, agent du FBI, 1945


Document téléchargé depuis www.cairn.info - - - 201.17.100.29 - 01/05/2020 03:12 - © La Découverte

Document téléchargé depuis www.cairn.info - - - 201.17.100.29 - 01/05/2020 03:12 - © La Découverte

Copyright : © Gettyimages.

C’est pourquoi le cinéma peut être le lieu où une société qui « a perdu ses
gestes essaie en même temps de revendiquer ce qu’elle a perdu et d’enregis-
trer cette perte » (ibid., p. 52). Mais, de quelle perte s’agit-il ? Se perdre de
quoi et pour qui ?

Quand Elia Kazan a créé, en 1947, l’Actors Studio, à New York, il a mis la
méthode des actions physiques de Stanislavski au service d’une technique
118 Réseaux n° 211/2018

d’interprétation qui a permis de connecter directement un geste à un « per-


sonnage » ou un « rôle ». Son adéquation à la production cinématographique
ne découle pas seulement du caractère naturaliste des leçons du maître russe.
En reconnaissant à l’intérieur de chaque scène une variété d’« unités » qui
sont mises en corrélation avec des « objectifs » et des « actions », la méthode
promet de regrouper les actions découpées et produites sans linéarité chro-
nologique ou causale dans une quelconque instance supérieure (le film, le
récit ou l’humanité). Chaque geste de l’acteur ou de l’actrice, décomposé par
le cinématographe (cadre à cadre et, principalement, plan à plan) est sauvé,
accueilli ; et sa vie et son sens sont rétablis par l’esprit qui habite la bobine du
film, comme avant il habitait le corps de l’acteur.

Hors du cinéma, pourtant, la décomposition mécanique du geste et la perte


qui lui est associée ne trouvent de place dans des formes de transcendance.
Theodor Adorno a peut-être été le premier philosophe à le reconnaître à pro-
pos de l’automatisme des portes. Dans « Entrer sans frapper », note écrite en
1944, publiée dans Minima Moralia, il affirme que « la technologie rend les
gestes précis et brutaux, et les hommes avec eux ». Déshabillés de toute hési-
Document téléchargé depuis www.cairn.info - - - 201.17.100.29 - 01/05/2020 03:12 - © La Découverte

Document téléchargé depuis www.cairn.info - - - 201.17.100.29 - 01/05/2020 03:12 - © La Découverte


tation, les gestes auraient été convertis en « exigences des choses ». Les portes
de réfrigérateurs et de voitures doivent être « claquées », et « personne ne sait
plus fermer une porte avec gentillesse, mais d’une façon ferme ». Les portes à
ressort, qui sont devenues populaires au début des années 1940, ont imposé de
mauvaises habitudes aux gens, comme celles de ne pas regarder pour voir s’il
y a quelqu’un derrière. Sous la loi de la fonctionnalité, le contact avec l’objet
serait limité à la seule opération et tout ce qui ne peut pas être « consommé »
en ce moment – ce d’où pourrait venir une « expérience » – est banni de l’ac-
tion (Adorno, 2005, p. 40). Quelques paragraphes plus loin, il note, à propos
de la perte de gentillesse :

« Toute membrane interposée entre les hommes et leurs transactions est sentie
comme une perturbation au fonctionnement du dispositif, auquel ils sont non
seulement objectivement incorporés, mais avec lequel ils s’identifient avec
fierté. Donc au lieu d’enlever leur chapeau, ils se saluent les uns les autres
avec des “bonjours” d’une familière indifférence » (ibid., p. 41).

CONTRÔLE ET PRÉDICTION : LA CYBERNÉTIQUE

La mécanisation du geste, inséparable de sa décomposition et de sa reproduc-


tibilité, visait, tout compte fait, sa conformation à une finalité. Il s’agissait
Abstraction, expropriation, anticipation119

fondamentalement d’un ajustement biodynamique de la machine à visser, à


écrire ou à se battre en duel, sans laquelle les objets techniques ne pourraient
pas fonctionner correctement comme des « dispositifs », au sens éclairé par
Foucault – c’est-à-dire comme une dimension où se matérialisent les relations
de pouvoir dans les institutions, les discours, les techniques, les règles et les
processus de subjectivation (Agamben, 2009). L’apogée paradoxale de cette
mécanisation du geste a été la cybernétique. D’après la brillante synthèse pro-
duite par Norbert Wiener, « la théorie du contrôle en ingénierie, qu’elle soit
humaine, animale ou mécanique, est un chapitre de la théorie du message »
(Wiener, 1989, pp. 16-17). Dans l’utopie cybernétique, la porte automatique
de la Pennsylvania Station à New York (l’exemple est de Wiener) est le para-
digme des machines sensibles : la moindre information provenant du « monde
extérieur » déclenche l’action la plus exacte et la plus précise du mécanisme.
Les machines automatiques ont évolué selon le même principe que le règne
animal : « contrôler l’entropie par la rétroaction » (ibid., p. 26). Avec la cyber-
nétique, le dernier vestige du paradigme cartésien des organismes vivants en
tant qu’horloger disparaît, puisque la machine elle-même n’est plus qu’un
simple rouage. L’automate cybernétique cohabite avec notre univers thermo-
Document téléchargé depuis www.cairn.info - - - 201.17.100.29 - 01/05/2020 03:12 - © La Découverte

Document téléchargé depuis www.cairn.info - - - 201.17.100.29 - 01/05/2020 03:12 - © La Découverte


dynamique et assimile les propriétés du vivant.

Revenons à l’agent du FBI qui est resté tout ce temps devant le miroir, en
essayant de dégainer son pistolet de plus en plus vite. À quoi sert toute cette
amélioration si ce qu’il a devant ses yeux est un bombardier et dans ses
mains un canon antiaérien ? Que peut-il faire d’autre que suivre la cible en
cherchant vainement à la frapper dans une action qui semble se dérouler au
ralenti ? Mais, suggère Wiener en 1950, un nouveau canon antiaérien peut
être construit ‒ celui qui « surveille par lui-même les statistiques concernant
l’avion ciblé » ‒, car leurs manœuvres évasives, si variés que soient les pilotes
et les avions, sont soumises à des régularités. Ainsi, le canon est engagé non
seulement dans une action de combat, mais dans une action d’apprentissage
qui lui permet d’anticiper les manœuvres possibles du pilote. Pour que les
machines soient capables d’anticiper les mouvements et devenir des pre-
diction machines, elles devraient pouvoir apprendre (ibid., pp. 86-88). Cet
étrange duel qui met d’une part un pilote dans une cabine ergonomiquement
optimisée pour réagir à la moindre commande – c’est-à-dire pour que chaque
mouvement soit aussi précis, exact et sans gaspillage possible – et, d’autre
part, une machine capable d’anticiper la trajectoire erratique à partir de sché-
mas statistiques déduits d’expériences antérieures, voilà la scène d’origine de
l’autonomisation du geste dans la contemporanéité.
120 Réseaux n° 211/2018

Un des ancêtres du canon rêvé par Wiener était le Kerrison Predictor, un


ordinateur analogique créé à la fin des années 1930 en Angleterre pour guider
les tirs d’un canon antiaérien. Le British Pathé a produit en 1939 un film de
propagande à ce sujet, qui a été montré dans les théâtres anglais à la veille de
la Seconde Guerre mondiale. Il s’appelait Predictions while you wait et son
but était double : présenter une machine capable de prédire les trajectoires
des avions ennemis et démontrer en même temps que le gouvernement anti-
cipait des mesures préventives en cas de guerre. Devant un diagramme de
machine, un locuteur annonce qu’il s’agit d’un Predictor, « l’un des équipe-
ments les plus ingénieux de notre système de défense ». Anticipant sans doute
l’étonnement du public face à son format inhabituel, il ajoute : « il ressemble
à un caméscope/boîte à filmer » (Predictions…, 1939). La similitude entre
les deux appareils atténuait l’étrangeté, édulcorait l’inquiétude résultant de la
rencontre entre des machines bizarres et les peurs de la guerre, renvoyant le
Predictor à l’univers familier du divertissement de masse.

À la décomposition du geste dans la photographie et dans le cinématographe,


qui a simultanément mécanisé le vivant (à des fins de discipline, de contrôle,
Document téléchargé depuis www.cairn.info - - - 201.17.100.29 - 01/05/2020 03:12 - © La Découverte

Document téléchargé depuis www.cairn.info - - - 201.17.100.29 - 01/05/2020 03:12 - © La Découverte


d’examen, de diagnostic et de performance) et nous a charmés avec la restitu-
tion éphémère de son mouvement dans les salles de cinéma, la cybernétique
a ajouté l’animation thermodynamique des machines automatiques et, plus
tard, prédictives. Que cette confrontation dramatique ait eu lieu sur un champ
de bataille et non dans une salle d’identification judiciaire révèle les limites
auxquelles la criminologie a historiquement fait face pour opérer en dehors du
paradigme de l’identification (puisque le droit impute nécessairement le crime
à un coupable particulier).

La cybernétique établit cependant la base d’un modèle prédictif qui prévaudra


sur le paradigme de l’identification, y compris dans le domaine de la sécu-
rité. La machine prédictive idéalisée par Wiener (le « prédicteur antiaérien
(AA) ») était programmée par les entrées statistiques des performances des
vols passés, en vue de prédire mathématiquement la position future de l’avion
ennemi. Peter Galison (1994), dans son excellente analyse de la vision cyber-
nétique, montre comment le système prédictif conçu par Wiener (valable pour
les humains et pour les machines) est étroitement lié à une ontologie de l’en-
nemi. Dans le champ de bataille mécanisé de la Seconde Guerre mondiale, un
« abîme de distance, de vitesse et de métal » nous éloigne du pilote ennemi qui
lance des missiles d’en haut (Galison, 1994, p. 233). C’est un ennemi caché,
tellement mêlé à son armure machinique que les frontières entre humain et
non-humain deviennent floues. La construction d’une machine capable de
Abstraction, expropriation, anticipation121

prédire la position de l’avion-pilote à temps pour l’abattre dépendait de la


connaissance de son comportement, malgré son opacité. Wiener et Bigelow
notent que le pilote ennemi sous stress présente des régularités et des sché-
mas dans son histoire comportementale, semblable à un servomécanisme. Le
servomécanisme, déjà présent dans les études de Wiener sur des dispositifs
capables d’autoréguler son action en fonction d’un but et de ses échanges
informationnels avec l’environnement, devient le modèle à la fois du pilote
ennemi et de la machine qui le vaincra6.

Il est important de souligner que la connaissance du comportement de la


machine-pilote ennemie et les calculs mathématiques concernant sa posi-
tion future sont établis sans aucune référence à sa constitution et/ou à ses
états internes. L’accent mis sur le comportement manifeste est fondé sur une
approche behavioriste qui privilégie les manifestations directement obser-
vables au détriment de toute référence à des états mentaux ou internes ani-
més par des intentions, des croyances ou des désirs. Galison souligne que
cette opacité de l’Autre est à la base de la perspective cybernétique de l’en-
nemi et aussi de l’organisme humain et non humain, de la machine et du
Document téléchargé depuis www.cairn.info - - - 201.17.100.29 - 01/05/2020 03:12 - © La Découverte

Document téléchargé depuis www.cairn.info - - - 201.17.100.29 - 01/05/2020 03:12 - © La Découverte


monde. « Nous sommes vraiment, dans cette vision du monde, comme des
boîtes noires avec des entrées et des sorties et sans accès à la vie intérieure de
quelqu’un d’autre » (ibid., p. 256).

Ce modèle de machine prédictive, visant à anticiper les actions futures d’ac-


teurs initialement conçus comme des boîtes noires, persiste, avec quelques
variations, dans les dispositifs actuels de prédiction des gestes et des compor-
tements dans plusieurs domaines, notamment dans le secteur de la sécurité.

La cybernétique pose ainsi les bases d’un modèle prédictif qui prévaut sur
l’identification, mais ne l’annule pas. Nous allons montrer que l’accent mis
sur la prédiction de l’action (plutôt que sur l’identification de l’acteur) va de
pair avec un détachement relatif des connaissances préalables sur l’identité ou
la subjectivité des individus observés. On notera également que les modèles
machiniques actuels de détection et de prédiction des comportements radi-
calisent l’expropriation et l’abstraction du geste aussi bien dans le domaine

6.  Le prédicteur AA faisait face à un problème de rétroaction différent des servomécanismes


précédemment étudiés par Wiener, tels que les thermostats et les torpilles autoguidées. Le
temps entre l’action et l’effet était plus grand et devait être calculé et contrôlé, puisque l’obus
mettait quelques secondes à atteindre sa cible.
122 Réseaux n° 211/2018

de la sécurité que dans celui de la consommation et des interactions homme-


machine.

DÉTECTION ET ANTICIPATION AUTOMATISÉE DES GESTES

Reprenons d’abord la méthode de la bande des Apaches employée pour décom-


poser et anticiper les gestes, en la comparant aux mécanismes automatisés de
« détection de bagarres », aujourd’hui incorporés aux systèmes de vidéosur-
veillance dans les prisons, dans les écoles et dans les espaces urbains comme
des gares ou des parkings. De tels mécanismes sont constitués de programmes
d’ordinateur capables de reconnaître des gestes et des conduites qui indiquent
des situations de dispute. La plupart des programmes de ce type ont pour but
de surveiller et de détecter les comportements au sein de petits groupes ou de
foules7. L’inscription de cette fonction de reconnaissance dans la machine la
rend capable de différencier dans une image ce qui est défini comme régulier
et irrégulier. L’irrégularité, dans ce cas, indique un combat imminent ou déjà
en cours. Une telle habilité implique, comme dans la méthode employée avec
Document téléchargé depuis www.cairn.info - - - 201.17.100.29 - 01/05/2020 03:12 - © La Découverte

Document téléchargé depuis www.cairn.info - - - 201.17.100.29 - 01/05/2020 03:12 - © La Découverte


la bande des Apaches, la décomposition du mouvement, mais ici, le principe
est surtout algorithmique, et non plus visuel. Il ne s’agit pas de segmenter les
déplacements des parties du corps pour voir mieux et plus lentement les tri-
cheries cachées parmi les contretemps du geste chorégraphié, mais de suivre
l’image afin de détecter plus rapidement les changements dans ses paramètres.
L’abstraction du geste s’est radicalisée et s’est traduite en caractères spatiaux
et temporels de l’image vidéo, lisibles aux yeux de la machine en tant que
vecteurs de mouvement, de direction, de magnitude, de vitesse ou de texture
(Image 5).

La détection de l’irrégularité dans l’image doit être quasi simultanée à l’inter-


vention qui essaie, dans ce cas, de détourner le cours de l’action. Connecté
aux contrôles de sécurité, le système fait sonner une alarme dans le champ

7.  Un autre contexte dans lequel nous trouvons les détecteurs de combats est celui de la classi-
fication indicative d’âge automatisée par les plateformes de vidéos en ligne. Le grand nombre
de productions audiovisuelles mis en circulation aujourd’hui pose le problème de la force de
travail employée dans la classification de ces images en fonction de leurs contenus. Les scènes
de violence et de sexe, considérées inadaptées à certains publics, peuvent être actuellement clas-
sifiées à partir des mêmes algorithmes de reconnaissance des gestes et des mouvements opérant
dans les systèmes de vidéosurveillance. Cf. E. Bermejo, O. Deniz, G. Bueno, R. Sukthankar,
« Violence detection in video using computer vision techniques », 14th International Congress
on Computer Analysis of Images and Patterns, 2011, pp. 332-339.
Abstraction, expropriation, anticipation123

Image 5. Détection des bagarres dans les vidéos de surveillance


Document téléchargé depuis www.cairn.info - - - 201.17.100.29 - 01/05/2020 03:12 - © La Découverte

Document téléchargé depuis www.cairn.info - - - 201.17.100.29 - 01/05/2020 03:12 - © La Découverte

Source : Esen et al., 2013. Copyright © 2013, IEEE.

attentionnel des opérateurs de vidéosurveillance, en permettant qu’une inter-


vention ait lieu au moment de l’incident prévu, ou même avant. L’image, déjà
dotée d’un pouvoir d’observation en temps réel, vise maintenant un temps réel
de réaction. Plus encore, l’idéal de cette détection automatisée est d’arriver
avant le désastre, de façon à l’anticiper et à éviter l’incident qui pourrait venir.
124 Réseaux n° 211/2018

Même si l’horizon de tous les systèmes de détection de bagarres est, dans


une certaine mesure, prédictif, il existe des projets qui sont spécifiquement
focalisés sur la détection des attitudes et des gestes propres aux moments qui
précèdent une dispute ou une situation violente. C’est le cas de la recherche
Pre-fight detection: Classification of Fighting Situations Using Hierarchical
AdaBoost (Blunsden et Fisher, 2009). La forme potentielle du geste violent
doit être détectée à temps pour le conjurer.

Les mécanismes de détection des bagarres nous offrent un contrepoint à la


lecture moderne des gestes potentiellement violents, nous permettant de com-
prendre certains des principes qui régissent le processus actuel d’automa-
tisation de la prédiction des conduites. De tels mécanismes intègrent toute
une génération de systèmes de vidéosurveillance et de vision par ordinateur
dotés d’une couche, dite « intelligente », capable non seulement d’observer,
de transmettre et d’enregistrer les images en temps réel, mais de « lire » ces
images selon des paramètres précédemment définis. Dans le domaine de
la sécurité, ces paramètres sont généralement destinés à détecter des com-
portements ou des situations considérés comme suspects ou anormaux. La
Document téléchargé depuis www.cairn.info - - - 201.17.100.29 - 01/05/2020 03:12 - © La Découverte

Document téléchargé depuis www.cairn.info - - - 201.17.100.29 - 01/05/2020 03:12 - © La Découverte


prolifération au début du XXIe siècle des caméras de vidéosurveillance par-
tout dans le monde témoigne de la réussite partielle et tardive du propos de
Mme Dyvrande et de M. Gaveau, puisque l’image en mouvement a été fina-
lement incorporée au quotidien de la sécurité publique. Pourtant, et malgré
sa presque omniprésence, la vidéosurveillance conventionnelle ne s’est pas
montrée assez efficace dans le combat contre le crime en raison, entre autres,
des limites de la perception et de l’attention humaines dans le traitement de
telles images volumineuses et monotones. La connaissance de cette limita-
tion est bien antérieure à la popularisation des systèmes de vidéosurveillance
et renvoie en amont aux problèmes associés à la surveillance par radar pen-
dant la Deuxième Guerre mondiale. La fatigue et les failles des opérateurs
de radar dans la détection de signes ont mobilisé des études sur les limites de
l’attention qui, à cette même période, se sont associées au terme de « surveil-
lance » dans le domaine de la psychologie. Le type d’attention employé par
ces opérateurs a reçu le nom de surveillance afin de désigner une attention
soutenue ; ces deux termes sont encore de nos jours utilisés comme syno-
nymes par certaines théories de l’attention. Jusque-là, dans ce domaine de
recherche, la surveillance désignait un état ou un sens physiologique d’acti-
vation et de réceptivité par rapport au fonctionnement général du système
nerveux (Head, 1923 apud Gómez-Iniguez et al., 1999). À travers les opé-
rateurs de radar (Mackworth, 1948 apud Gómez-Iniguez, op. cit.), le terme
« surveillance » est venu signifier une forme spécifique de l’attention définie
Abstraction, expropriation, anticipation125

par la focalisation, la sélection, la continuité, la finalité et l’anticipation. Les


recherches de Mackworth montrent comment, chez l’homme, l’attention sou-
tenue décline après une demi-heure d’activité focalisée. Les radars modernes
intègrent alors la détection automatisée de tout signal inattendu ou non fami-
lier.

Nous retrouvons les mêmes problèmes et des solutions similaires dans le


domaine de la vidéosurveillance des premières décennies du XXIe siècle. La
réduction de la performance attentionnelle de l’opérateur des caméras, après
une certaine période d’exposition à ces images, peut effectivement compro-
mettre sa perception quand quelque chose de pertinent se produit. L’addition
d’une couche « intelligente » est justement destinée à dépasser cette limite
et à sélectionner dans les images, des moments et des régions vers lesquels
l’attention des opérateurs humains doit se diriger. L’utilité pédagogique de
l’image en mouvement pour la défense sociale, entrevue par M. Gaveau,
est maintenant destinée, non plus aux policiers, mais aux machines elles-
mêmes. Ce sont elles qui doivent apprendre à reconnaître dans chaque
scène, des situations suspectes, risquées ou dangereuses. Il ne s’agit plus de
Document téléchargé depuis www.cairn.info - - - 201.17.100.29 - 01/05/2020 03:12 - © La Découverte

Document téléchargé depuis www.cairn.info - - - 201.17.100.29 - 01/05/2020 03:12 - © La Découverte


rendre visibles des actions qui se déroulent au-dessous des seuils percep-
tuels humains (« inconscient optique ») ou d’améliorer, par l’observation
des mouvements, les habiletés cognitives des agents. L’idéal d’une machine
ergonomique aussi rapide que la pensée humaine était voué à l’échec, comme
le rêve de l’agent Jelly, qui voulait être plus rapide que lui-même. Cet idéal
a succombé face à la distraction fatale à laquelle tôt ou tard les vigilants suc-
combent eux aussi.

Seule la vidéosurveillance « intelligente » peut soutenir l’idéal commercial


et sécuritaire des 24 heures de veille omniprésente, sans être hantée par son
propre excès. La vision algorithmique des caméras promet une surveillance
continue et efficace, permettant une plus grande mobilité à la fois des agents
de sécurité humaine et des corps surveillés. La publicité du groupe Thalès, qui
a développé le système intelligent de détection de comportements suspects
mis en place par la SNCF, annonce cette promesse pour la surveillance des
aéroports :

« Grâce à cette solution innovante, l’opérateur de sécurité – derrière ses écrans


ou circulant dans l’aéroport, car le système permet également d’afficher et
de contrôler les flux vidéos sur des terminaux mobiles pour une surveillance
“nomade” – dispose désormais d’un puissant outil de détection et de suivi
des comportements anormaux pour assurer une sécurité optimale des milliers
126 Réseaux n° 211/2018

de personnes évoluant quotidiennement dans les grands aéroports internatio-


naux » (Thales Group, 2015)8.

L’inspection des corps s’effectue sans que soit interrompu le cours de leurs
actions et de leur mobilité quotidienne, sauf en cas de suspicion ou d’irrégu-
larité. En plus de la surveillance en temps réel, l’observation des corps mou-
vants dans leurs déplacements habituels a une fonction cognitive importante,
parce qu’elle permet de connaître les schémas de comportement de chaque
individu et de la foule dans un environnement naturel. Cette connaissance est
décisive pour apprendre aux machines à reconnaître aussi bien des disputes
et des situations de violence que d’autres types de comportements considérés
comme suspects, risqués ou simplement indésirables : des corps qui marchent
à contresens, qui rentrent dans lesdites « zones d’intérêt », qui restent trop de
temps dans des lieux d’intense mobilité (aéroports, stations de métro, centres
commerciaux), qui effectuent des trajets atypiques en contextes spécifiques
(comme des parkings ou sur les routes urbaines encombrées) ou encore, dans
le cas des machines orientées vers la surveillance de la foule, qui changent de
forme, de rythme ou de densité au sein des agglomérations.
Document téléchargé depuis www.cairn.info - - - 201.17.100.29 - 01/05/2020 03:12 - © La Découverte

Document téléchargé depuis www.cairn.info - - - 201.17.100.29 - 01/05/2020 03:12 - © La Découverte


Dans le domaine de la sécurité publique, nous observons toujours l’impor-
tance médiatrice des acteurs humains. Jean-Yves Dufour, en écrivant sur
l’implémentation des systèmes intelligents de vidéosurveillance au sein des
réseaux de transport public en France, parie sur l’irréductibilité de la faculté
humaine de juger une situation détectée comme suspecte par la machine.

« Cette communication avec les acteurs humains est représentative d’une


approche dans laquelle le capteur est utilisé pour détecter une situation à
risque potentiel, la décision et les moyens d’intervention revenant à l’homme,
seul jugé compétent pour évaluer finement la situation réelle sur laquelle le
système automatique donne très efficacement des indices. Les situations cri-
tiques et les fonctions identifiées lors de l’analyse du besoin utilisateur sont la
détection de chute sur le sol (malaise ou agression), la détection de bagarre, le
suivi d’un passager dans le réseau (utile par exemple pour interpeller un indi-
vidu ayant commis un délit) » (Dufour, 2012, pp. 47-48).

Si l’évaluation fine des images de vidéosurveillance est toujours prise en


charge par les acteurs humains, il faut souligner une couche plus subtile

8.  https://www.thalesgroup.com/fr/worldwide/securite/news/smart-videoprotection, consulté


le 21 mai 2018.
Abstraction, expropriation, anticipation127

d’anticipation qui reste, même dans le domaine sécuritaire, déléguée aux


machines intelligentes. L’article intitulé « Pre-Emptive camera activation for
Video-Surveillance » présente « une nouvelle technique de visualisation de
l’information qui vise à réduire l’effort mental des opérateurs de sécurité »
(Martinel et al., 2011, p. 189). À partir du diagnostic de l’inhumanité de l’ef-
fort requis pour surveiller un objet ou un individu en mouvement à travers
des espaces décomposés en plusieurs champs de vision, les chercheurs ont
développé un système automatique de vidéosurveillance.

Au lieu de montrer les images de toutes les caméras disponibles, ce sont


les anomalies des flux qui seront montrées aux agents de sécurité. Afin de
déterminer de tels flux, le système doit prévoir les trajectoires régulières des
individus avec les caméras qui les enregistrent (ibid., p. 190). La capacité
d’anticipation dans ce système n’est pas exclusivement orientée vers une
analyse automatisée des actions effectivement réalisées devant les camé-
ras. Il s’agit plutôt d’une stratégie liée à un haut degré de normalisation des
conduites qui indique aux opérateurs du système les déplacements suspects
dans l’espace surveillé. Le système se dirige vers ce qui n’est pas prévu par
Document téléchargé depuis www.cairn.info - - - 201.17.100.29 - 01/05/2020 03:12 - © La Découverte

Document téléchargé depuis www.cairn.info - - - 201.17.100.29 - 01/05/2020 03:12 - © La Découverte


l’architecture d’un tel espace.

Deux images (Images 6 et 7) présentées dans l’article cité illustrent bien le


type de logique anticipatrice en opération.

Dans l’Image 6, nous avons accès aux deux couches qui intègrent ce sys-
tème visuel de vidéosurveillance. La première figure est l’image d’un par-
king tel qu’il est capturé par la vidéo en temps réel, alors que la deuxième
et la troisième image (à l’horizontale, de gauche à droite) correspondent aux
diagrammes qui confrontent algorithmiquement l’image enregistrée par les
caméras de vidéo, en signalant des éventuels détours dignes d’une attention
supplémentaire. Dans le parking sous surveillance, le piéton qui se trouve au
point C1 de l’image a tendance à se déplacer vers C2, C3 et C4, et chacune
de ces possibilités est estimée par un algorithme. Dans la deuxième ligne de
l’Image 6, nous voyons la procédure analogue d’estimation de la trajectoire
et le calcul de probabilité pour une voiture qui rentre dans le même parking.
Comme les déplacements des piétons et des voitures suivent différents proto-
coles (l’espace par lequel une personne peut passer ne permet pas forcément le
passage d’une voiture), nous sommes confrontés à deux diagrammes de suivi
et de prédiction de mouvement. Ils orientent l’attention des agents de sécurité
en fonction de n’importe quel détour non prévu par de tels paramètres.
128 Réseaux n° 211/2018

Image 6. Exemple de l’association de la trajectoire et la probabilité


du chemin futur

Source : Martinel et al., 2011, p. 192. Copyright © 2011, Springer-Verlag Berlin Heidelberg

Image 7. Module d’interaction humain-ordinateur, exemple d’organisation


de flux, activation et visualisation de données
Document téléchargé depuis www.cairn.info - - - 201.17.100.29 - 01/05/2020 03:12 - © La Découverte

Document téléchargé depuis www.cairn.info - - - 201.17.100.29 - 01/05/2020 03:12 - © La Découverte

Source : Martinel et al., 2011, p. 192. Copyright © 2011, Springer-Verlag Berlin Heidelberg.

L’Image 7 présente la façon dont l’anticipation des trajectoires des individus


surveillés par ce circuit peut servir au développement d’une interface plus
facile à maîtriser par l’agent de sécurité. Les chercheurs ont dû résoudre le
problème de l’automatisation de la sélection des images à montrer dans un
circuit de vidéosurveillance à grande extension, comptant plusieurs caméras.
Dans cette deuxième image, nous voyons le diagramme du déplacement d’un
objet ou d’un individu mobile traversant les champs de vision couverts par
plusieurs caméras. À un moment donné de la trajectoire existe la possibilité
Abstraction, expropriation, anticipation129

d’une bifurcation où l’un des chemins possibles est prévu comme le plus
probable par le système, ce qui fait que la caméra 3 ait priorité par rapport
à la caméra 14. Dans le champ inférieur droit du diagramme, nous voyons
l’interface telle qu’elle est visualisée par l’opérateur, où les images montrent
où l’objet se trouve en temps réel et où il sera probablement dans un futur
proche. Ce dispositif nourrit un état d’attention et d’attente de l’opérateur du
système qui focalise aussi le chemin qui peut, alternativement, être parcouru
par l’individu surveillé.

En revenant sur la question de la gestualité, on observe que la recodification


de la gestualité et des mouvements des corps est centrale pour l’automatisa-
tion de la prédiction. L’animation et la vitalité du geste mises en relief par
Mlle Dyvrande ne sont plus orientées vers le dévoilement des particularités
et des tics de l’individu, mais plutôt vers la reconnaissance automatisée, à une
large échelle, de schémas de comportement qui ne renseignent plus, en utilisant
la machine, le regard d’un homme sur un autre. L’abstraction du geste se pré-
sente comme condition de l’anticipation visée par les machines intelligentes.
Document téléchargé depuis www.cairn.info - - - 201.17.100.29 - 01/05/2020 03:12 - © La Découverte

Document téléchargé depuis www.cairn.info - - - 201.17.100.29 - 01/05/2020 03:12 - © La Découverte


Les modèles prédictifs sont les héritiers des techniques d’abstraction du geste
qui priorisaient l’analyse des conduites, des comportements et des trajectoires.
On a vu comment ces techniques ont été initialement développées dans la psy-
chiatrie et surtout dans l’industrie. Dans la cybernétique, l’analyse et la pré-
diction des conduites vont se dissocier de toute référence aux états internes
de l’agent (humain ou non humain) qui réalise l’action. Dans les machines
prédictives que nous venons de décrire, la reconnaissance comme action pré-
ventive de sécurité (qui d’ordinaire visait à surprendre et bannir des rues les
« récidivistes ») ne se dirige plus vers un individu donné, préalablement connu.
La détection (et le contrôle) de l’action est devenue plus importante que l’iden-
tification, en se dispensant de la connaissance préalable des motivations psy-
chologiques ou des traits qui sous-tendent le comportement ou le geste.

L’accent sur l’activité et la conduite ne peut pas être séparé de la rationalité


machinique qui l’accompagne et de l’échelle qu’il essaie d’englober. Dans le
langage technique des développeurs d’algorithmes prédictifs dans le champ
de la sécurité, la vision par ordinateur est spécialement programmée pour la
double fonction de reconnaissance des schémas et de détection des anoma-
lies. Ce sont des fonctions que les machines peuvent opérer à grande échelle,
de façon continue, rapide et relativement efficace. En plus, de telles fonc-
tions s’alignent avec les idéaux prédictifs et leurs principes actuariels, basés
sur des modèles mathématiques orientés vers l’anticipation d’occurrences
130 Réseaux n° 211/2018

et d’incidents qui ne sont pas associés à des individus préalablement identi-


fiés. Dans la vision algorithmique et prédictive, l’accent sur la gestualité, la
conduite et le mouvement des corps est donc lié à un relatif effacement de
l’identité et de la subjectivité. Il ne s’agit plus de reconnaître ou de diagnos-
tiquer la personnalité criminelle sous la gestualité et les grimaces capturées
par l’image, mais d’anticiper, dans la surface de l’image et dans le mouve-
ment des corps, un possible crime ou incident à venir, en détectant des com-
portements ou des situations anomales. L’individu visé par les systèmes de
vidéosurveillance intelligents est le résultat des calculs dans lequel il ne rentre
pas comme un élément a priori. Il émerge d’une zone pixellisée anomale ou
atypique dans l’immanence de l’image.

Ces machines prédictives poursuivent et rendent plus sophistiqués les prin-


cipes des dispositifs créés par Wiener et Bigelow, en élargissant leur seuil
d’automation. Dans le cadre militaire contemporain, les drones – véhicules
aériens sans pilote – sont sans doute l’application limite des principes pré-
dictifs automatisés déjà présents dans la vidéosurveillance algorithmique.
Chamayou (2013) montre comment le paradigme de l’intelligence basée sur
Document téléchargé depuis www.cairn.info - - - 201.17.100.29 - 01/05/2020 03:12 - © La Découverte

Document téléchargé depuis www.cairn.info - - - 201.17.100.29 - 01/05/2020 03:12 - © La Découverte


l’activité est au cœur de la récente doctrine « contre-insurrectionnelle » :

« Contrairement à ce que l’on pourrait penser, l’objectif principal de ces dispo-


sitifs de surveillance persistante est moins de prendre en filature des individus
déjà connus que de voir émerger des éléments suspects se signalant par leurs
comportements anomiques. Parce que ce modèle de renseignement est “fondé
sur l’activité”, c’est-à-dire sur une analyse des conduites plutôt que sur la
reconnaissance d’identités nominales, il prétend paradoxalement “identifier”
des individus qui demeurent anonymes, c’est-à-dire les qualifier par la typicité
de leur comportement comme relevant d’un profil déterminé : identification
non plus singulière, mais générique » (Chamayou, 2013, p. 64).

L’accent mis sur l’activité est, ici aussi, accompagné du principe de détec-
tion d’anomalies et d’anticipation préventive (ibid., pp. 64-5). Dans le lan-
gage militaire même, il s’agit de surveiller et de comprendre des « schémas
de vie » et leurs détournements, de façon à anticiper des menaces potentielles.
Les schémas de vie appris et reconnus par les drones sont dérivés du croise-
ment d’images et d’une série de données et de métadonnées qui émergent des
trajectoires, des communications et des actions d’une foule d’individus qui
restent anonymes jusqu’à ce qu’ils deviennent la cible privilégiée du champ
de vision des machines prédictives.
Abstraction, expropriation, anticipation131

Rappelons que cette modalité de regard prédictif et de détection des schémas


et des anomalies n’est pas exclusive du champ policier ou militaire. Elle est
présente de façon relativement similaire dans le suivi quotidien de nos actions
en ligne et dans l’ensemble du commerce de données et de services qui leur
est attaché, dans les modèles de gestion de la « ville intelligente » (smart city),
dans les fluctuations des marchés financiers, dans la circulation de nouvelles,
dans les campagnes politiques, etc. Le repérage, l’archivage et l’anticipation
des gestes et des activités quotidiennes prennent des échelles vertigineuses
et arrivent à des niveaux toujours plus élevés d’abstraction. Graphiques,
courbes, ondes, histogrammes, vecteurs, nœuds et arêtes qui, peu lisibles aux
yeux humains, deviennent l’image contemporaine des traces et des données
émanant de gestes et de mouvements des populations connectées aux disposi-
tifs d’information. Nous n’y voyons plus les contours de l’individu et de son
identité, mais à leur place les projections de ses actions et ses comportements,
qui sont aussi des cibles d’interventions potentielles. La cible – terme propre
au domaine militaire ainsi qu’à celui de la publicité – est l’effet plutôt que le
référent de cette vision prédictive.
Document téléchargé depuis www.cairn.info - - - 201.17.100.29 - 01/05/2020 03:12 - © La Découverte

Document téléchargé depuis www.cairn.info - - - 201.17.100.29 - 01/05/2020 03:12 - © La Découverte


Cette expropriation et abstraction de la gestualité pointe vers une possibilité
inédite de convergence du monde visible avec des bases de données d’autres
natures, qui intègrent des régimes contemporains de surveillance. De tels
régimes ne sont plus exclusivement restreints au domaine de l’optique, comme
nous a appris Michel Foucault dans sa lecture du panoptique de Bentham.

Karl Palmås (2011) évoque la notion de Panspectric Surveillance afin d’ana-


lyser le passage du mode de production industriel au scénario postindustriel,
qui serait marqué par l’émergence des nouvelles formes d’organisation corpo-
rative dont les incarnations seraient Google, Amazon, Wal-Mart, etc. Palmås
montre comment la logique en opération dans le panoptique de Bentham ne
rend pas compte du fonctionnement de ces nouvelles entreprises, basées non
plus sur l’individu constitué au sein des institutions disciplinaires, mais sur la
notion de l’être « dividuel » (Deleuze, 1990). Au sein de cette transition, selon
l’argumentation de Palmås, se trouve l’entrée des technologies de data mining
dans le domaine marchand et dans celui du marketing.

« En bref, le “data mining” est devenu impératif pour plusieurs entreprises, et
un best-seller récent du champ du business s’intitule “Competing on Analytics:
the new science of winning” (Davenport et Harris, 2007). Les auteurs sou-
tiennent qu’en utilisant le type d’algorithmes d’auto-apprentissage que Google
132 Réseaux n° 211/2018

a mis au point, les entreprises de divers secteurs peuvent faire des prédictions
sur le comportement futur des utilisateurs. [...] les données collectées étudient
les sujets non pas en tant qu’individus, mais en tant que modèles et propen-
sions de comportement extraits à partir de très grandes bases de données »
(Palmås, 2011, p. 347).

La complexification des systèmes prédictifs de surveillance panspectrique,


structurés autour de plusieurs paramètres et des données hétérogènes est,
peut-être, indicatrice de l’intentionnalité non subjective sous-jacente aux pro-
cessus d’abstraction des gestes que nous venons de décrire. Soit pour inter-
venir avant qu’un accident ou une agression ait lieu dans une gare, soit pour
prévoir la propension à l’achat des consommateurs au moment où ils font déjà
la queue pour payer leurs courses, l’observation des gestes et des mouvements
des corps intègre les calculs algorithmiques du futur proche. La vision machi-
nique de la gestualité n’est pas un chapitre à part des systèmes de prédiction
basée sur les données. Les gestes et les mouvements des corps sont abstraits
sous la forme de données, et expropriés des corps qui les ont exécutés, pour se
redéployer au sein des calculs multiparamétriques qui sont en train de modé-
Document téléchargé depuis www.cairn.info - - - 201.17.100.29 - 01/05/2020 03:12 - © La Découverte

Document téléchargé depuis www.cairn.info - - - 201.17.100.29 - 01/05/2020 03:12 - © La Découverte


liser le futur.

L’état de l’art des machines prédictives contemporaines nous permet de com-


prendre la portée des investissements technopolitiques dans la gestualité. Ces
investissements concernent non seulement le domaine de la sécurité publique,
mais également les opérations militaires, les stratégies de marketing, le design
et les interfaces des dispositifs de communication. Nous avons vu dans cet
article que l’image technique, de différentes manières et à différents moments,
s’annonce capable de saisir ou anticiper les gestes, de révéler leur dynamique,
leurs rythmes, leurs trajectoires, leurs intentions ou leurs développements
futurs. Dans chacun de ces cas, il était possible de voir les changements dans
les rapports entre la vision, la machine, le corps et le temps.

Dans la brève généalogie que nous avons proposée, le processus d’abstraction


et d’expropriation du geste qui a commencé dans la modernité arrive à notre
époque dans l’anticipation des actions futures basée sur la détection automa-
tisée des comportements suspects. La contrepartie politique de ce processus
est l’émergence d’un nouvel État policier où l’anticipation des gestes précède
l’identité – et s’en passe.

Le geste se rend de plus en plus abstrait au fur et à mesure que l’image tech-
nique s’écarte de la dimension humaine et d’une référence préalable à un
Abstraction, expropriation, anticipation133

individu identifié. On a vu que dans un premier temps la décomposition du


geste par l’image technique est liée à des mécanismes de contrôle où l’identi-
fication occupe une place centrale. Aussi bien dans la photographie que dans
le cinéma, la vision machinique des gestes décomposés, abstraits et expropriés
des corps qui les ont effectués avait permis de mieux reconnaître les indivi-
dus. Parmi les exemples mentionnés dans cet article, les seules exceptions
modernes sont les cyclographies de Frank et Lillian Gilbreth visant à optimi-
ser le travail industriel dans le cadre du taylorisme. Dans ce cas, l’abstraction
du geste enregistrée par une cinématique de lignes lumineuses finissait par
effacer les traits singuliers de l’individu.

Cet effacement de l’identité augmente progressivement à mesure que la vision


machinique prédictive devient plus forte. À partir des développements de la
cybernétique, la figure humaine, toujours centrale pour l’échelle d’appréhen-
sion du geste, va devenir plus faible. Déjà les techniques de combat aérien
pendant la Seconde Guerre mondiale rendaient impossible l’évaluation des
intentionnalités des acteurs humains. La cybernétique propose donc une onto-
logie de l’ennemi (Galison, 1994) et une façon de prédire le comportement qui
Document téléchargé depuis www.cairn.info - - - 201.17.100.29 - 01/05/2020 03:12 - © La Découverte

Document téléchargé depuis www.cairn.info - - - 201.17.100.29 - 01/05/2020 03:12 - © La Découverte


n’est plus liée à la lecture du corps humain et de sa subjectivité. Le traitement
algorithmique de la gestualité est sans doute la dernière étape de ce proces-
sus d’abstraction et d’écart par rapport à l’échelle humaine. Dans la dernière
partie de l’article, nous avons présenté différentes applications de la détection
automatisée des gestes et des mouvements, en soulignant celles visant à pré-
dire les comportements. Dans chacune d’elles, on constate que la vision algo-
rithmique se tourne vers la reconnaissance de schémas gestuels et d’anomalies
dés-identifiés, basée sur des paramètres de direction, de densité, de texture
et de rythme des images techniques analysées par les dispositifs soi-disant
« intelligents ». La prédiction automatisée de comportements prend désormais
des formes qui ne peuvent plus renvoyer à un individu identifié qu’a poste-
riori. Cette relative absence de l’individu et de l’identité n’atténue nullement
le contrôle sur les actions et la conduite de ceux qui deviennent les cibles
privilégiées de ces machines de vision. Il reste à comprendre les possibilités
de subversion de ce type de contrôle qui paradoxalement se nourrit de et inter-
vient sur nos conduites en prétendant qu’il ne sait pas qui nous sommes.
134 Réseaux n° 211/2018

RÉFÉRENCES

ADORNO T. (2005), Minima Moralia, London, Verso.


AGAMBEN G. (2000), Means without end, Minneapolis, University of Minnesota
Press.
AGAMBEN G. (2009), What is an Apparatus? and other essays, Stanford, Stanford
University Press.
BENJAMIN W. (1985), Obras Escolhidas I, São Paulo, Brasiliense.
BENJAMIN W. (2003), Selected Writings (vol. 4), Cambridge, Belknap Press.
BERMEJO B., DENIZ O., BUENO G., SUKTHANKAR R. (2011), « Violence
detection in video using computer vision techniques », 14th International Congress on
Computer Analysis of Images and Patterns, pp. 332-339.
BERNARD H. (1914), « L’Éducation des agents par le cinéma », Le Film (Paris),
n° 14, pp. 7-8.
BLUNSDEN S. J., FISHER R. B. (2009), « Pre-fight detection: Classification of
Fighting Situations Using Hierachical AdBoost », disponible sur: http://citeseerx.ist.
Document téléchargé depuis www.cairn.info - - - 201.17.100.29 - 01/05/2020 03:12 - © La Découverte

Document téléchargé depuis www.cairn.info - - - 201.17.100.29 - 01/05/2020 03:12 - © La Découverte


psu.edu/viewdoc/summary?doi=10.1.1.156.8148, consulté le 20 août 2018.
CHAMAYOU G. (2013), Théorie du drone, Paris, La Fabrique.
DELEUZE G. (1990), « Post-scriptum sur les sociétés de contrôle », L’Autre Journal,
mai 1990, n° 1.
DIDI-HUBERMAN G. (2003), Invention of Hysteria, Cambridge MA, MIT Press.
DUFOUR J.-Y. (dir.) (2012), Outils d’analyse vidéo : pour une pleine exploitation
des données de vidéo-protection, Cachan, Lavoisier.
ESEN E., ARABACI M. A., SOYSAL M. (2013), « Fight detection in surveillance
videos », 11th International Workshop on Content-Based Multimedia Indexing
(CBMI), IEEE, pp. 131-135.
GALISON P. (1994), « The ontology of the enemy: Norbert Wiener and the cyberne-
tic vision », Critical Inquiry, vol. 21, n° 1, pp. 228-266.
GIEDION S. (1948), Mechanization takes command, New York, Oxford University
Press.
HEAD H. (1923), « The Conception of Nervous and Mental Energy: A Physiological
State of the Nervous System », British Journal of Psychology, n° 14, pp. 126-147,
in C. GÓMEZ-IÑIGUEZ et al. (1999), « Análisis conceptual del término vigilancia
desde principios del s.XX hasta la actualidad: Una perspectiva histórica », Revista de
historia de la psicología, vol. 20, n° 3-4, pp. 415-428.
LÉRICH L. (1949), La Police scientifique, Paris, Presses universitaires de France.
Abstraction, expropriation, anticipation135

MACKWORTH N. H. (1948), « The breakdown of vigilance during prolonged


visual search », The Quarterly Journal of Experimental Psychology, n° 1, pp. 6-21,
in C. GÓMEZ-IÑIGUEZ et al. (1999), « Análisis conceptual del término vigilancia
desde principios del s.XX hasta la actualidad: Una perspectiva histórica », Revista de
historia de la psicología, vol. 20, n° 3-4, pp. 415-428.
MARTINEL N., MICHELONI C., PICIARELLI C. (2011), « Pre-emptive Camera
Activation for Video-Surveillance HCI », in G. MAINO, G. L. FORESTI (eds.),
Image Analysis and Processing – ICIAP 2011. ICIAP 2011. Lecture Notes in
Computer Science, vol. 6979, Berlin-Heidelberg, Springer.
MOAR J. (2016), « Gesture, Motion & Haptics: Future Use Cases, Shipments &
Revenue Forecasts 2016-2021 », Juniper.
OUBIÑA D. (2009), Una Juguetería filosófica, Buenos Aires, Manantial.
PALMÅS K. (2011), «  Predicting What You’ll Do Tomorrow: Panspectric
Surveillance and the contemporary Corporation », Surveillance & Society, vol. 8,
n° 3, pp. 338-354.
PANOFSKY E. (1972), Studies in iconology, New York, Harper and Row.
PINNEY C. (2011), Photography and Anthropology, London, Reaktion Books.
Document téléchargé depuis www.cairn.info - - - 201.17.100.29 - 01/05/2020 03:12 - © La Découverte

Document téléchargé depuis www.cairn.info - - - 201.17.100.29 - 01/05/2020 03:12 - © La Découverte


PREDICTIONS WHILE YOU WAIT. British Pathé, 1939, disponble sur https://www.
britishpathe.com/video/predictions-while-you-wait, consulté le 10 février 2018.
Premier Congrès de Police judiciaire internationale Monaco avril 1914 (1926), Actes
de Congrès publiés sous la direction de F. Larnaude, par J.-A. Roux, Paris, Marchall
et Billard.
PRICE M. (1994), The Photograph: a strange confined space, Stanford, Stanford
University Press.
RENAUD J.-J. (1906), « Trucs d’apaches et leurs parades », La Vie au Grand Air
(Paris), Ano 9, n° 429, 8 décembre 1906, pp. 948-949, disponible sur http://gallica.
bnf.fr/ark:/12148/bpt6k9607877r/f82.item., consulté le 20 août 2018.
SHAO J., CHANGE LOY C., WANG X. (2014), « Scene-independent group profi-
ling in crowd », Proceedings of the IEEE Conference on Computer Vision and Pattern
Recognition, p. 2219-2226.
WIENER N. (1989), The Human use of human beings: cybermetics and society,
Avon, Bookcraft.