Vous êtes sur la page 1sur 16

Le mdium algorithmique

Par Pierre Lvy


Dans les sciences, lconomie ou la politique, les activits humaines sont de plus en plus fondes sur la gestion et lanalyse dnormes masses de donnes numriques 1 . Mme si nous nen navons pas clairement conscience, notre socit devient progressivement datacentrique. Paralllement cette volution, nos communications - mettrices et rceptrices de donnes - reposent sur une infrastructure de plus en plus complexe de manipulation automatique de symboles que jappelle le mdium algorithmique. Mais aussi bien la socit datacentrique que le mdium algorithmique sur lequel elle repose nen sont encore qu leurs timides commencements. Lessentiel de leur croissance et de leur dveloppement reste encore venir. De plus, les esprits restent fascins par la puissance de diffusion de messages oerte par lInternet, une puissance qui nest pas loin davoir atteint son terme, alors quun immense espace - encore inexplor - souvre la transformation et lanalyse du dluge de donnes que nous produisons quotidiennement. A lavant-garde de la rvolution algorithmique, IEML (ou tout autre systme ayant les mmes proprits) va dmocratiser la catgorisation et lanalyse automatique de locan de donnes. Son utilisation dans les mdias sociaux va crer un environnement encore plus propice quaujourdhui lapprentissage collaboratif et la production de connaissances massivement distribue. Ce faisant, IEML (ou quelquautre code smantique universel) va contribuer faire merger le mdium algorithmique du futur et permettre une rexion de lintelligence collective sur ldication de la socit datacentrique venir.

1 1.1

Lpuisement de la logique de la diusion Lhorizon de la communication universelle

De Gutemberg jusquau milieu du XXe sicle, le principal eet technique des mdias tait denregistrer, de multiplier et de transmettre mcaniquement les symboles de la communication humaine. On peut notamment prendre comme exemples limprimerie (journaux, magazines, livres), lindustrie du disque, le cinma, le tlphone, la radio et la tlvision. Certes, il existait aussi des techniques de calcul, ou de transformation automatique des symboles. Mais les calparatre dans la revue Socits , Paris. au Dept de communication de lUniversit dOttawa, titulaire de la Chaire de Recherche du Canada en Intelligence Collective, membre de la Socit Royale du Canada 1. Je traduis par masses de donnes ou donnes massives langlais big data .
Professeur A

1 Lpuisement de la logique de la diusion

culatrices automatiques disponibles avant les ordinateurs ntaient pas trs puissantes et dun usage limit. Les premiers ordinateurs eurent peu dimpact sur la communication sociale cause de leurs prix levs, de leur complexit dutilisation et de leur faible nombre de propritaires (essentiellement les grandes entreprises, certains laboratoires scientiques et administrations gouvernementales de pays riches). Ce nest qu partir des annes 1980 que le dveloppement de linformatique personnelle mit entre les mains dune part croissante de la population de puissants outils de production de messages, quil sagisse de textes, de tableaux de chires, dimages ou de musique. Ds cette poque, la dmocratisation des imprimantes et le dveloppement des rseaux de communication entre ordinateurs, tout comme la multiplication des chaines de radio et de tlvision, commena remettre progressivement en question le monopole sur la diusion massive des messages, qui appartenait traditionnellement aux diteurs, journalistes professionnels et responsables des grands rseaux de tlvision 2 . Cette rvolution de la diusion sest acclre avec larrive du World Wide Web au milieu des annes 1990. Elle sest panouie dans la sphre publique mondiale multimdia dun nouveau genre qui prvaut au dbut du XXIe sicle. Sur le plan de la structure de la communication sociale, la caractristique essentielle de la nouvelle sphre publique est de permettre nimporte qui de produire des messages, dmettre en direction dune communaut sans frontire et daccder aux messages produits par les autres metteurs. Cette libert de communication est dautant plus eective que son exercice est quasi gratuit et ne ncessite aucune connaissance technique pralable. Malgr les limites que je vais bientt souligner, il faut saluer le nouvel horizon de communication qui sore dsormais nous : au rythme o croissent les taux de connexions, presque chaque tre humain de la prochaine gnration sera capable de diuser ses messages la totalit de la plante gratuitement et sans eort. Il est certain que la manipulation - ou la transformation - automatique des symboles tait pratique ds les annes 1960 et 1970. Jai galement dj not quune bonne part de linformatique personnelle tait utilise produire linformation et non seulement la diuser. Enn, les grandes entreprises du Web telles que Google, Amazon, E-bay, Apple, Facebook ou Twitter traitent quotidiennement dimmenses masses de donnes dans de vritables usines informationnelles entirement automatises. Malgr cela, pour la majorit des gens, le mdium numrique est encore conu et utilis comme un outil de diusion et de rception dinformation, dans la continuit des mdias de masse depuis limprimerie en passant par la tlvision. Un peu comme si le Web distribuait chaque individu la puissance dune maison ddition, dune chane de tlvision et dun rseau postal multimdia en temps rel, tout en lui donnant accs une bibliothque et mdiathque mondiale omniprsente. De mme que les premiers livres imprims - les incunables - copiaient troitement la forme des manuscrits, nous nous servons encore du mdium numrique pour achever, ou pousser jusqu son terme, la puissance de diusion des mdias antrieurs. Tout le monde
2. Un monopole dailleurs bien souvent rgul ou contrl par les gouvernements.

1 Lpuisement de la logique de la diusion

peut mettre universellement. Chacun peut recevoir de nimporte o.

1.2

Les limites du mdium algorithmique contemporain

Outre la censure et la surveillance malveillante exerce par les rgimes dictatoriaux, il au moins trois limites ce processus de communication mondiale. 1.2.1 Les limites cognitives

La premire limite tient aux comptences cognitives des groupes sociaux et des individus : plus leur niveau de formation (primaire, secondaire, universitaire) est lev, plus leur pense critique 3 est dveloppe et mieux ils sont capables de tourner leur avantage le nouvel environnement de communication. Au fur et mesure que les points daccs et les dispositifs mobiles se multiplient, la fameuse question de la fracture numrique 4 recoupe de manire croissante les problmes de lalphabtisation et de lducation. Il faut noter que le simple fait de savoir lire et crire donne dj accs une possibilit dexpression ainsi qu une foule de relations sociales et dinformations qui auraient t hors de porte sans le mdium numrique 5 . 1.2.2 Les limites smantiques

La seconde limite est smantique puisque, si la connexion technique tend devenir universelle, la communication du sens reste encore fragmente selon les frontires des langues, des systmes de classication, des disciplines et autres univers culturels plus ou moins disjoints. Le Web smantique impuls par Tim Berners Lee ds la n des annes 1990 est fort utile pour traduire des relations logiques entre donnes. Mais il na pas tenu ses promesses en matire dinteroprabilit du sens, malgr lautorit de son promoteur et linvestissement de nombreuses quipes dingnieurs. Comme je lai montr dans le tome 1 de La sphre smantique 6 , il est impossible de traiter pleinement les problmes smantique en restant dans les limites troites de la logique. Dautre part, les mthodes essentiellement statistiques utilises par Google ainsi que par les nombreux systmes de traduction automatique disponibles fournissent dexcellent outils daide la traduction, mais elles nont pas mieux russi que le Web smantique ouvrir un vritable espace de communication translinguistique. Les statistiques ne sont pas plus ecaces que la logique pour automatiser le traitement de la signication. Ici encore, il manque un codage de la signication linguistique qui la rende vritablement calculable dans toute sa complexit.
3. La pense critique dsigne ici la capacit dvaluer la transparence dune source dinformation, de vrier son exactitude par recoupements et de dcrypter ses prsupposs et ses thories implicites. 4. Digital divide en anglais. 5. Voir les travaux de Manuel Castells (par exemple, Communication Power, Oxford University Press, 2009) et de Barry Wellman (par exemple, avec Lee Rainie, Networked: The New Social Operating System, MIT press, 2012). 6. La sphre smantique, tome 1, Herms-Lavoisier, Paris-Londres 2011, en particulier au chapitre 8

1 Lpuisement de la logique de la diusion

1.2.3

Les limites du positivisme statistique

Laccs du grand public la puissance de diusion du Web ainsi que les ots de donnes numriques qui coulent dsormais de toutes les activits humaines nous confrontent au problme suivant : comment transformer les torrents de donnes en euves de connaissances ? La solution ce problme va dterminer la prochaine tape de lvolution du mdium algorithmique. Certains observateurs enthousiastes du traitement statistique des big data , comme Chris Anderson, le rdacteur en chef de Wired, se sont empresss de dclarer que les thories scientiques (en gnral!) taient dsormais obsoltes 7 . Nous naurions plus besoin que de ots massifs de donnes et dalgorithmes statistiques puissants oprant dans les nuages de lInternet : les thories - et donc les hypothses quelles proposent et la rexion dont elles sont issues - appartiendraient une tape rvolue de la mthode scientique. Il parat que les nombres parlent deux-mmes. Mais cest videmment oublier quil faut, pralablement tout calcul, dterminer les donnes pertinentes, savoir exactement ce que lon compte, et nommer - cest--dire catgoriser - les patterns mergents. De plus, aucune corrlation statistique ne livre directement des relations causales. Cellesci relvent ncessairement dhypothses qui expliquent les corrlations mises en vidence par les calculs statistiques. Sous couvert de pense rvolutionnaire, Chris Anderson et ses mules ressuscitent la vieille pistmologie positiviste et empiriste en vogue au XIXe sicle selon laquelle seuls les raisonnements inductifs (cest--dire uniquement bass sur les donnes) sont scientiques. Cette position revient refouler ou passer sous silence les thories - et donc les hypothses risques fondes sur une pense personnelle - qui sont ncessairement loeuvre dans nimporte quel processus danalyse de donnes et qui se manifestent par des dcisions de slection, didentication et de catgorisation. On ne peut initier un traitement statistique et interprter ses rsultats sans aucune thorie. Encore une fois, le seul choix que nous ayons est de laisser cette thorie ltat tacite ou de lexpliciter. Expliciter une thorie permet de la relativiser, de la comparer avec dautres thories, de la partager, de la gnraliser, de la critiquer et de lamliorer 8 . Cela constitue mme une des principales composantes de ce quil est convenu dappeler la pense critique , que lducation secondaire et universitaire est cense dvelopper chez les tudiants. Outre lobservation empirique, la connaissance scientique a toujours eu voir avec le souci de la catgorisation et de la description correcte des donnes phnomnales, description qui obit ncessairement des thories plus ou moins formalises. En dcrivant des relations fonctionnelles entre des variables,
7. Voir : de Chris Anderson The End of Theory: The Data Deluge Makes the Scientic Method Obsolete , Wired, 23 juin 2008. 8. Parmi la trs abondante littrature sur le sujet, voir notamment les ouvrages de deux grands pistmologues du XXe sicle, Karl Popper et Michael Polanyi. - Karl Popper, Objective Knowledge: An Evolutionary Approach. Clarendon Press, Oxford, 1972 (En Franais : La Connaissance objective. Traduction intgrale et prface de Jean-Jacques Rosat, Flammarion, collection Champs, Paris, 1998). - Michael Polanyi, Personal Knowledge: Towards a Post-Critical Philosophy, University of Chicago Press, 1974 (publication originale en 1964).

2 Les dbuts de la socit data-centrique

la thorie ore une prise conceptuelle sur le monde phnomnal qui permet (au moins partiellement) de le prvoir et de le matriser. Les donnes daujourdhui correspondent ce que lpistmologie des sicles passs appelait les phnomnes. Pour continuer de ler cette mtaphore, les algorithmes danalyse de ux massifs de donnes daujourdhui correspondent respectivement aux instruments dobservation de la science classique. Ces algorithmes nous montrent des patterns, cest--dire en n de compte des images. Mais ce nest pas parce que nous sommes capables dexploiter la puissance du mdium algorithmique pour observer les donnes quil faut sarrter en si bon chemin. Nous devons maintenant nous appuyer sur la puissance de calcul de lInternet pour thoriser (catgoriser, modliser, expliquer, partager, discuter) nos observations, sans oublier de remettre cette thorisation entre les mains dune intelligence collective foisonnante.

Les dbuts de la socit data-centrique

Je vais maintenant dcrire les premiers pas de la socit data-centrique, telle quelle se dessine sur la base de notre nouvelle capacit - massivement distribue - de diusion universelle.

2.1

Une communication stigmergique

Commenons par analyser le type de communication dsormais dominant au dbut du XXIe sicle et qui se droule dans ce quil est convenu dappeler les mdias sociaux . Les mdias sociaux ne dsignent pas ici seulement les blogs et les services classiques de rseautage tels que Facebook, Twitter ou Linkedin. Ils comprennent aussi une foule de services de publication, de collaboration, de fouille, dapprentissage ou de transaction en ligne qui permettent leurs utilisateurs de trouver les informations, les produits ou les personnes quils cherchent grce lexploitation de lintelligence collective en ligne. Par exemple, Wikipedia repose sur lactivit auto-organise de millions dauteurs et dditeurs. Google utilise les hyperliens achs par des millions de sites Web pour classer ses rponses nos requtes. Amazon nous suggre des livres bass sur les choix des utilisateurs qui ont des prols dachats semblables aux ntres, etc. En n de compte, la communication a toujours lieu entre des personnes. Mais, dans le mdium algorithmique, cette communication a lieu principalement sur un mode stigmergique, cest--dire que les personnes communiquent entre elles en modiant leur environnement commun : les donnes numriques en ligne. Chaque lien que nous crons, chaque tag que nous apposons sur une information, chaque acte dvaluation ou dapprobation, chaque jaime , chaque requte, chaque achat, chaque commentaire, chaque re-tweet, toutes ces oprations modient subtilement la mmoire commune, cest--dire la masse inextricable des relations entre les donnes. Notre comportement en ligne met un ux continuel de messages et dindices qui contribue - parfois directement mais le plus souvent indirectement - orienter et informer les autres internautes. Or il en est videmment

2 Les dbuts de la socit data-centrique

ainsi parce linformation que nous produisons individuellement est traite par des algorithmes an dtre transforme en information utile pour la collectivit.

2.2

Le modle data-centrique de la communication

Dans le modle data-centrique de la communication, linteraction des individus avec la masse des donnes communes - et par cet intermdiaire avec les autres participants - peut se dcomposer en quatre tapes logiquement distinctes mais pratiquement interdpendantes : la production, lacheminement, la fouille et lanalyse. 2.2.1 La production

Les donnes doivent dabord tre produites avant dtre introduites dans la mmoire collective. Que ce soit pour la rdaction et ldition de texte, de tableaux, dimages xes ou animes, de son, de musique, de logiciel ou de paquets multimedia, le producteur de donnes utilise invariablement un ou plusieurs logiciels, cest--dire en n de compte des algorithmes. Il en est de mme pour les donnes gnres par les transactions conomiques, par les capteurs biomdicaux ou par ceux qui permettent didentier, de localiser et de mesurer les actions dobjets ou de machines. 2.2.2 Lacheminement

Une fois produites et mises vers une base de donnes en ligne, les donnes sont traites an dtre achemines vers les destinataires pertinents. En fonction de nos activits et de notre rseau, les algorithmes des services en ligne nous envoient des slections dinformations, des recommandations de personnes suivre, des suggestions dachats, des publicits, etc. Lanalyse de grandes masses de donnes et le ltrage collaboratif alimentent ainsi - souvent gratuitement nos demandes dinformation quotidienne et de veille sur nos sujets favoris. 2.2.3 La fouille

Une requte explicite sur un moteur de recherche (cest--dire en fait sur une base de donnes) dclenche une slection dinformation ainsi que le classement et la prsentation des donnes slectionnes. Dans lactivit de fouille de donnes, cest en principe lusager qui dtermine les informations quil reoit. Mais les algorithmes des moteurs de recherche personalisent leurs rsultats en fonction de notre prol (langue, requtes prcdentes, etc.). De plus, leurs algorithmes de slection et de rangement ont un impact dterminant sur les rsultats quils nous renvoient, comme on peut sen rendre compte facilement en comparant les rsultats de la mme requte sur dirents moteurs de recherche.

2 Les dbuts de la socit data-centrique

2.2.4

Lanalyse

Finalement, les donnes amasses ou runies partir de sources diverses peuvent tre analyses an den extraire des patterns, des rgularits ou des tendances autrement indiscernables. Les rsultats de cette analyse de grandes masses de donnes servent mieux comprendre des processus complexes, prvoir le futur (lorsque cest possible) avec plus dexactitude et prendre de meilleures dcisions. Les donnes qui font lobjet de telles analyses peuvent tre produites en interne par les organismes qui les traitent (gouvernements, laboratoires scientiques, entreprises...). Mais elles peuvent aussi tre rcupres sur le Web, tre mises la disposition du public par des administrations gouvernementales de diverses chelles, ou bien encore par des entreprises pratiquant la mise disposition publique de leurs donnes pour des raisons philantropiques. Contrairement aux trois phases prcdentes (production, acheminement et fouille) lanalyse automatique de grandes masses de donnes se trouve rarement entre les mains des utilisateurs naux de manire gratuite et intuitive. En 2013, ces analyses automatiques sont encore le plus souvent rserves des institutions riches et dotes de fortes comptences techniques. 2.2.5 Le rle des algorithmes dans la communication data-centrique

Les rsultats de lanalyse de grandes masses de donnes sont eux-mmes des donnes, qui peuvent servir produire des documents. Ces documents sont leur tour achemins, fouills et ainsi de suite. Il sagit dun cycle. Rexaminons les tapes de ce cycle : les individus collaborent pour produire des donnes, reoivent des donnes pertinentes dautres groupes ou individus en fonction de leurs prols et de leurs activits, rcoltent des donnes en rponse des requtes explicites et analysent les masses de donnes reues. Dans tous les cas, la relation des utilisateurs avec les donnes est mdie par des algorithmes. Nous avons vu que, dans la socit data-centrique, les personnes communiquent de manire indirecte, en modiant la structure de relations entre les donnes qui constitue leur contexte commun. Or nos interactions avec la masse des informations stockes dans les nuages de lInternet est mdie par des algorithmes. Ces algorithmes grent nos interactions sensori-motrices avec les ordinateurs et les gadgets portables, nos accs aux bases de donnes, nos actes de fouille, de tri, etc. Bien mieux, les algorithmes organisent le bouclage personnel et collectif de lmission et de la rception des donnes, ils recommandent et grent les contacts personnels sur Internet, ils amnagent lenvironnement conomique, social et cognitif de lintelligence collective. En somme, ce sont bel et bien les algorithmes qui forment dsormais le milieu de communication au sein duquel les rseaux humains construisent et modient collaborativement leur mmoire commune.

2.3

Les avances multiformes dune culture data-centrique

Plusieurs phnomnes techno-sociaux contemporains tmoignent loquemment de lclosion dune nouvelle re de la communication sociale.

2 Les dbuts de la socit data-centrique

Le mouvement de la science ouverte vise la constitution dun bien commun scientique mondial comprenant non seulement les publications traditionnelles (articles, livres, rapports) mais galement les donnes brutes et les outils logiciels ayant servi les exploiter. La communaut scientique internationale communique ainsi de manire de plus en plus transparente en se rassemblant autour du bien commun numrique quelle produit et dont elle se nourrit, comme les universits dantan se rassemblaient autour de leur bibliothque. La mta-discipline mergente des digital humanities travaille numriser et mettre en ligne lensemble des archives, textes, documents divers et commentaires accumuls qui constituent le matriau de son activit. Elle construit de plus autour de cette masse documentaire une myriade de rseaux sociaux qui se partagent leurs outils en vue de lexploitation collaborative des donnes 9 . Des journalistes reprent les ensembles de donnes prometteuses fournies par les gouvernements, les organismes de production de statistiques ou dautres institutions. Ils analysent ces donnes au moyen dalgorithmes appropris, puis visualisent et expliquent les rsultats leurs lecteurs. Dans le domaine de la communication organisationnelle et du knowledge management , on considre de plus en plus quune bonne gestion sociale des connaissances merge, sur le mode bottom-up, des activits personnelles des membres de lorganisation pour grer leurs propres connaissances. Lentreprise ou ladministration devient ainsi un mdium social facilitant trois processus complmentaires. Premirement, ses membres, ses clients et ses partenaires accumulent des donnes communes codant le savoir qui leur est utile. Deuximement, chacun peut accder ces donnes au moment opportun. Troisimement, des conversations ouvertes entre les participants au rseau facilitent aussi bien la codication du savoir destination du collectif que son appropriation personnelle en situation de travail. Dans leur version connexionniste, les cours ouverts en ligne massifs (MOOC 10 ) transcendent lducation distance classique pour stimuler lapprentissage collaboratif en rseau, les tudiants contribuant produire le matriel pdagogique commun sur une multitude de plate-formes interconnectes. La plupart des formes de crowdsourcing, tout comme la communication et le partage de chiers pair pair (P2P ) illustrent ce modle de relation sociale dans lequel une foule dindividus se rassemblent virtuellement autour dun trsor de donnes communes pour - simultanment - lenrichir et lexploiter.

2.4

Les institutions data-centriques

Au-del de ces tendances davant-garde, les institutions humaines comme les admininistrations gouvernementales, les collectivits locales, les universits, les coles, les entreprises grandes ou petites et les associations de toutes sortes reposent, pour leurs performances quotidiennes (administratives, budgtaires,
9. Voir sur ce point, de Michael Nielsen, Reinventing Discovery: The New Era of Networked Science, Princeton University Press, 2012 10. Massive open online course

2 Les dbuts de la socit data-centrique

lgales, stratgiques, etc.) sur la gestion informatise de donnes numriques. On peut distinguer deux grands types de donnes cet gard. Premirement, les donnes internes reprsentent les institutions ellesmmes. Ceci inclut leurs archives, leurs comptences ou savoirs cls, les oprations en cours, ainsi que les informations sur leurs membres, clients ou bnciaires. Les institutions sont gnralement responsables de la production et de lentretien des donnes sur lesquelles reposent leur mmoire et leurs activits quotidiennes. De telles donnes sont videmment produites et gres en fonction du sens que leur attribue linstitution, un sens qui tient ses nalits et ses traditions. Deuximement, les donnes externes sont produites par dautres institutions, y compris les mdias traditionnels. Ces donnes externes reprsentent lenvironnement de linstitution et font souvent lobjet dun travail de veille scientique, industrielle, conomique, politique, stratgique et ainsi de suite. Pour linstitution en question, le but de cette activit de renseignement est de comprendre son environnement, de prvoir autant que possible son volution et de sy adapter - ou dy intervenir de manire proactive. Comme les donnes externes sont produites et organises en fonction de nalits ou dangles interprtatifs qui ne sont pas les siens, linstitution doit les recoder - ou les re-catgoriser - sa manire. Il est clair que la frontire entre les deux types de donnes, interne et externe, est hautement permable. En outre, les institutions sont de plus en plus organises et interconnectes en rseaux par lintermdiaire desquels elles changent leurs donnes et accomplissent un grand nombre de transactions en ligne. Les institutions deviennent data-centriques dans la mesure o elles sidentient de moins en moins leurs infrastructures matrielles (y compris dailleurs les ordinateurs eux-mmes) et leur localisation physique alors quelles sidentient de plus en plus au noyau dur de leurs donnes stratgiques ainsi quau mode de codage et de traitement des donnes - internes et externes - qui sont ncessaires au maintien de leur intgrit. Ces donnes fondamentales - et les algorithmes qui les traitent - peuvent tre virtualises dans les nuages de linternet, permettant ainsi aux collaborateurs de linstitution dy accder tout instant et de nimporte o.

2.5

Les conits data-centriques

Les conits politiques ou militaires tournent galement de manire croissante autour du contrle des donnes numriques en ligne. Les rcentes campagnes lectorales se sont certes largement joues dans les mdias sociaux, sur le mode classique de lagitation et de la propagande. Mais on a aussi vu apparatre une tendance complmentaire : les quipes gagnantes ont massivement investi dans lanalyse automatique de grandes masses de donnes sur les lecteurs et leurs opinions. Elles ont de plus russi exploiter en temps rel sur le terrain les rsultats de ces analyses 11 .
11. Voir par exemple: Beware the Smart Campaign de Zeynep Tufekci, in New York Times, 16 Nov. 2012

2 Les dbuts de la socit data-centrique

10

Les rvoltes arabes de 2011 ont utilis les tlphones intelligents et les mdias sociaux pour leur organisation interne et la diusion de leurs messages 12 . Symtriquement, les dictatures concernes ont tent de couper ou de brouiller les rseaux, elles ont inltr les communauts en ligne pour obtenir des renseignements sur les rvolutionnaires et elles se sont livr des activits de contrepropagande et dintoxication dans le medium numrique. Il nest plus un mouvement social sur la plante qui nutilise dsormais la puissance de coordination et de diusion des rseaux sociaux. Mais aussi bien les gouvernements que les services de renseignement et de police utilisent les mmes outils de diusion, dexploitation, de manipulation et danalyse des donnes. Quels que soient les camps en prsence, il sagit toujours danalyser et dinuencer la mmoire court terme (lactualit) et long terme (lhistoire) des communauts concernes, une mmoire qui sincarne dsormais dans des ux et des stocks de donnes numriques. Du ct de lanalyse, on tente de percevoir les signaux faibles et les patterns dvolution qui annoncent le futur bien quils nattirent pas lattention de la majorit. Du ct de linuence, on tente de faire oublier, de passer sous silence ou de discrditer certaines donnes et lon veut en revanche attirer lattention sur les donnes favorables (voire les crer articiellement) et leur confrer un maximum de crdibilit. Les mdias classiques (grands journaux et tlvision) ne sont plus que des sources de donnes comme les autres. Ces sources mdiatiques sont certes particulirement puissantes du fait de leurs moyens et de leur crdibilit, mais leurs eets se mesurent dsormais leur capacit direntielle dinuencer la connexion aective des personnes et des groupes avec la masse plantaire des donnes. Jusquau XIXe sicle, les armes se divisaient en arme de terre et en marine. Le XXe sicle a vu le dveloppement dune troisime arme majeure : laviation. Ds la seconde dcennie du XXIe sicle, une quatrime arme a fait son apparition dans les forces de dfense de la plupart des grandes et moyennes puissances : larme informatique. La cyberguerre comprend videmment lespionnage, la dsinformation et les jeux de simulation. Mais elle ne sy limite pas car, dans ce cas, elle aurait pu rester conne la fonction de renseignement, de propagande et de rexion stratgique des autres armes. En plus des fonctions classiques qui viennent dtre nommes, les cyberattaques visent le blocage des rseaux et la destruction des donnes-cls de la force militaire, du gouvernement et de lconomie des puissances ennemies, ainsi que la prise de contrle dinstallations et dinfrastructures distance. Cette prise de contrle peut aller jusquau sabotage physique des installations et la disruption complte des infrastructures. Du ct de la dfense, la nouvelle arme a pour mission de protger les rseaux et les donnes stratgiques des institutions militaires, gouvernementales, industrielles et conomiques dun pays. Il va sans dire quune des comptences majeures attendues des cyber-ninjas est la conception et la programmation des algorithmes. Il faut noter en outre que toutes les branches des armes se sont
12. Voir par exemple, de Reda Benkirane, The Alchemy of Revolution: The Role of Social Networks and New Media in the Arab Spring, Geneva Centre for Security Policy GCSP Policy Paper 2012/7 http://www.archipress.org/reda/index.php?option=com_content&task=view&id=133&Itemid=1

3 Le dveloppement du mdium algorithmique

11

dotes de capacits de communication, de coordination et de renseignement (embarques, interactives et en temps rel) qui reproduisent - en les augmentant les grandes fonctions des mdias sociaux civils.

Le dveloppement du mdium algorithmique

Sans doute faut-il avoir puis les possibilits logiques de la diusion automatique - savoir la vertu mdiatique des quatre derniers sicles - an de rencontrer et de commencer assimiler sur un plan culturel le potentiel encore presque inexploit de la transformation automatique : la vertu mdiatique des sicles qui viennent. Cest pourquoi je parle ici de mdium algorithmique : an de souligner la capacit de transformation automatique de la communication support numrique. Bien entendu, la puissance de transformation ou de traitement du nouveau mdium ne peut sactualiser que sur la base de laccomplissement irrversible de la mission du mdium prcdent, savoir la diusion universelle ou lubiquit de linformation. Cette ubiquit tant quasiment atteinte au dbut du XXIe sicle, les gnrations qui viennent vont progressivement apprivoiser le traitement automatique du ot ocanique des donnes mondiales, avec toutes les consquences culturelles imprvisibles que cela va entraner. Aujourdhui, la plupart des algorithmes qui grent lacheminement des messages et la fouille des donnes sont opaques, puisquils sont protgs par le secret commercial des grandes compagnies du Web. Quant aux algorithmes danalyse ils sont, pour la plupart, non seulement opaques mais aussi hors datteinte de la majorit des internautes pour des raisons la fois techniques et conomiques. Or il est impossible de produire de la connaissance able au moyen de mthodes secrtes. Il faut videmment considrer ltat contemporain du mdium algorithmique comme transitoire. On ne pourra apprivoiser culturellement la croissance exponentielle des donnes - et donc transformer ces donnes en connaissance rchie - que par une mutation qualitative du mdium algorithmique. Mais pour comprendre comment nous en sommes arriv l, et surtout pour prvoir la manire dont la socit data-centrique et le mdium algorithmique vont continuer se dvelopper dans lavenir, il nous faut pralablement explorer lessence abstraite de la manipulation automatique des symboles.

3.1

La structure algorithmique

An de bien saisir la nature du nouveau mdium, nous devons nous reprsenter le plus clairement possible ce quest un algorithme et comment il fonctionnne. 3.1.1 Codage

Pour que des traitements automatiques puissent tre appliqus des donnes, il faut videmment que les donnes en question aient t pralablement codes de manire adquate et uniforme. Il ne sagit pas seulement ici du codage binaire (zro et un), mais de types de codages plus spcialiss. On peut donner comme exemple le codage des nombres (base deux, huit, dix, seize, etc.) celui

3 Le dveloppement du mdium algorithmique

12

des caractres dcriture, celui des images (les pixels), celui des sons, et ainsi de suite. Je souligne ce sujet quIEML se prsente comme un systme de codage de la signication linguistique propre la rendre calculable, exactement comme le systme des pixels a rendu les images manipulables par des algorithmes. 3.1.2 Oprateurs

Il faut ensuite imaginer un ensemble doutils ou de micro-machines spcialises dans lexcution de certaines tches. Apellons ces outils spcialiss des oprateurs . Les oprateurs sont prcisment identis et ils agissent de manire entirement dtermine et mcanique, toujours de la mme manire. Il doit videmment exister une correspondance ou une adquation entre le codage des donnes et le fonctionnement des oprateurs. Les oprateurs ont dabord t identis lintrieur des ordinateurs : ce sont ici des circuits lectroniques lmentaires. Mais on peut considrer nimporte quel processeur de donnes - aussi complexe soit-il - comme une bote noire faisant oce doprateur. Cest ainsi que le protocole de linternet, en addressant les ordinateurs dans le rseau, a du mme coup ouvert un systme universel dadressage des oprateurs. 3.1.3 Conteneurs

Il faut de plus se reprsenter un entrept de donnes dont les cases ou conteneurs lmentaires sont parfaitement addresses : un systme denregistrement logique orant une surface lisse pour lcriture, leacement et la lecture. Il est clair que le codage des donnes, les oprations qui leur sont appliques et leur mode denregistrement doivent tre harmonises pour optimiser les traitements. Le premier systme dadressage des conteneurs est interne aux ordinateurs, et il est gr par leur systme dexploitation. Mais au-dessus de cette couche daddressage interne, les URL du World Wide Web ont instaur un systme daddressage des conteneurs qui est universel. 3.1.4 Instructions

Le quatrime et dernier aspect dun algorithme est un ensemble ordonn de rgles - ou un mcanisme de contrle - qui organise la circulation rcursive des donnes entre les conteneurs et les oprateurs. La circulation est initie par un ux de donnes qui part des conteneurs vers les oprateurs appropris puis dirige les rsultats des oprations vers des conteneurs prcisment addresss. Un ensemble de tests (si... alors...) dtermine le choix des conteneurs o puiser les donnes traiter, le choix des conteneurs o inscrire les rsultats et le choix des oprateurs. La circulation de donnes sachve lorsquun test a dtermin que le traitement tait termin. Ds lors, le rsultat du traitement - savoir un ensemble de donnes codes - se trouve une adresse prcise du systme des conteneurs.

3 Le dveloppement du mdium algorithmique

13

3.1.5

Les instructions dpendent du jeu doprations ainsi que du codage et de ladressage des donnes

Dans les explications populaires ou vulgarises de la programmation, on rduit souvent lalgorithme une srie dinstructions ou une recette . Mais aucun algorithme ne peut jouer son rle sans disposer pralablement des trois lments qui suivent : premirement, un code adquat pour les donnes ; deuximement, un ensemble bien dtermin doprateurs ris - ou de fonctions se comportant comme des botes noires ; troisimement, un systme de conteneurs prcisment adresss capables denregistrer les donnes initiales, les rsultats intermdiaires et le rsultat nal. Les rgles - ou instructions - nont de sens que par rapport au code, aux oprateurs et aux adresses-mmoire. Je voulais souligner ici un point bien connu des spcialistes, mais dont limportance est rarement apprcie par le public : le type de traitement, la porte et la performance des algorithmes dpendent troitement de lidentit des oprateurs, ainsi que du codage et de ladressage des donnes. Je vais maintenant mappuyer sur lanalyse qui vient dtre faite de la structure intime des algorithmes pour analyser lvolution du mdium algorithmique. Nous allons voir que les grandes tapes de la croissance de ce mdium sont prcisment relies lapparition de nouveaux systmes dadressage et de codage, aussi bien pour les containeurs de donnes que pour les oprateurs.

3.2

Loeuf (1940-1970)

De quand peut-on dater lavnement du mdium algorithmique ? Nous pourrions tre tents de lui donner comme date de naissance 1937, puisque cest cette anne-l que Alan Turing a publi son fameux article introduisant pour la premire fois le concept de machine universelle, cest--dire le schma formel dun ordinateur. Larticle en question reprsente les fonctions calculables par des programmes de la machine universelle, cest--dire au fond par des algorithmes. Nous pourrions galement choisir 1945, puisque von Neumann publia au mois de juin de cette anne le First draft of a report on the EDVAC o il prsente larchitecture fondamentale des ordinateurs : 1) une mmoire contenant les donnes et les programmes (ces derniers codant les algorithmes), 2) une unit de calcul arithmtique et logique, 3) une unit de contrle capable dinterprter les instructions des programmes contenus dans la mmoire. Puisque les textes sminaux de Turing et von Neumann ne reprsentent que des avances thoriques, nous pourrions dater la nouvelle re de la construction et de lusage eectif des premiers ordinateurs, dans les annes 1950. Il est clair cependant que (malgr la prscience de quelques visionnaires), jusqu la n des annes 1970, on pouvait encore dicilement parler dun mdium algorithmique. Lune des principales raisons est que les ordinateurs taient encore cette poque des grosse machines coteuses et refermes sur elles-mmes, dont les interfaces dentre et de sortie ne pouvaient tre manipules que par des spcialistes. Quoique dj dans loeuf, le mdium algorithmique navait pas encore de prvalence sociale. On notera que, entre 1950 et 1980, les ux algorithmiques de donnes circulent

3 Le dveloppement du mdium algorithmique

14

majoritairement entre des containeurs et des oprateurs aux adresses locales, encloses dans une seule machine.

3.3

Lclosion (1970-1995)

Une nouvelle tendance se manifeste au cours des annes 1970 et prend le dessus pendant les annes 1980 : linterconnexion des ordinateurs. Le protocole de lInternet (invent en 1969) simpose par rapport ses concurrents pour adresser les machines dans les rseaux de tlcommunication. Cest aussi la priode pendant laquelle linformatique devient personnelle. Le numrique est dsormais peru comme un vecteur de transformation et de communication de tous les symboles, et non seulement des nombres. Les activits de la poste, des tlcommunications, de ldition, de la presse et de la diusion radio-tlvise se mettent converger. A ce stade, les donnes traites par les algorithmes sont toujours abrites par des conteneurs aux adresses locales mais - en plus de cette adresse - les oprateurs ont dsormais une adresse physique universelle dans le rseau mondial. En consquence, les oprateurs algorithmiques peuvent collaborer et lventail des types de traitement et dapplications slargit considrablement.

3.4

La maturation (1995-2020)

LInternet nest cependant devenu un support de communication majoritaire - au point de remettre en cause irrversiblement le fonctionnement des mdias traditionnels et celui de la plupart des institutions conomiques, politiques et culturelles - qu partir de larrive du Web autour de 1995. La rvolution du Web sexplique essentiellement par la cration dun systme dadresses physiques universelle des conteneurs. Il sagit bien entendu des URL. Notons que - comme dans le cas du protocole de lInternet pour les oprateurs - ce systme universel vient sajouter aux adresses locales des conteneurs de donnes, il ne le supprime pas. Ds lors, la puissance eective et la capacit de collaboration - ou dinteropration - des algorithmes saccrot et se diversie prodigieusement, puisque ce sont maintenant aussi bien les oprateurs que les conteneurs qui possdent des adresses universelles. La machine programmable fondamentale devient le rseau lui-mme, comme le montre la gnralisation du cloud computing . La dcennie 2010-2020 voit le dbut de la transition vers une socit datacentrique. En eet, partir de cette phase du dploiement social du nouveau mdium, les interactions entre personnes empruntent majoritairement le canal de lInternet, que ce soit pour la pure et simple sociabilit ou pour linformation, le travail, la recherche, lapprentissage, la consommation, laction politique, le jeu, la veille et ainsi de suite. Paralllement, les algorithmes interfacent de manire croissante les relations entre les gens, les relations entre les donnes et les relations entre les gens et les donnes. La monte des conits autour de la proprit et du libre accs aux donnes, ainsi quautour de louverture et de la transparence des algorithmes, sont des signes srs de la transition vers une

3 Le dveloppement du mdium algorithmique

15

socit data-centrique. Cependant, comme je le disais au dbut de ce chapitre, malgr leur rle dj dterminant, les algorithmes ne sont pas encore perus dans la conscience collective comme le nouveau mdium de la communication et de la pense humaine. On reste encore fascin par la logique de la diusion des mdias antrieurs.

3.5

Lenvol (2020-...)

Ce qui nexiste pas encore est notoirement dicile observer ou reconnatre, et plus encore labsence de ce qui nexiste pas encore. Or ce qui bloque aujourdhui le dveloppement dun vritable mdium algorithmique - et du mme coup lavnement dune nouvelle civilisation - est prcisment labsence dun systme universel et calculable de mta-donnes smantiques. Je rappelle que la sphre smantique fonde sur le langage IEML est la premire et ( ma connaissance) la seule candidate ce rle de systme de coordonnes smantique des donnes. Nous disposons dj dun systme dadressage physique universel des donnes (le Web) et dun systme dadressage physique universel des oprateurs (lInternet). Dans sa phase de plein dploiement, le mdium algorithmique comprendra en plus un code smantique universel : IEML. Ce systme de mta-donnes conu ds lorigine pour optimiser la calculabilit du sens tout en multipliant sa direntiation linni - ouvrira le mdium algorithmique linter-oprabilit smantique et donnera prise de nouveaux types de manipulation symbolique. Si les donnes daujourdhui correspondent aux phnomnes de la science classique, alors nous avons besoin de mtadonnes calculables et interoprables qui fassent le pendant aux thories et aux modles explicatifs de la science classique. IEML se prsente justement comme un outil algorithmique de thorisation et de catgorisation capable dexploiter la puissance de calcul du cloud et dapporter un indispensable complment aux rcents outils algorithmiques dobservation de patterns. IEML propose une mthode automatise de dnition de concepts et de relations entre concepts. Les donnes catgorises en IEML pourront tre traites de manire beaucoup plus ecaces quaujourdhui puisque les catgories et les relations smantiques entre catgories deviendront alors non seulement calculables mais automatiquement traductibles dune langue lautre 13 . De plus IEML permettra de comparer les rsultats fournis par lanalyse du mme ensemble de donnes selon des rgles de catgorisation (des thories!) direntes. Lorsque ce systme symbolique danalyse et de synthse conceptuelle se retrouvera dmocratiquement entre toutes les mains, se traduira automatiquement dans toutes les langues et se manipulera aisment partir dune simple tablette, alors locan des donnes pourra tre apprivois et le mdium algorithmique sera directement expriment comme un outil daugmentation cognitive - personnelle et sociale - et non seulement comme un instrument de diusion.
13. Pour tre plus prcis, les rseaux smantiques hypertextuels pourront tre traduits automatiquement pour toutes les langues gurant dans le dictionnaire multilingue dIEML.

4 La rvolution de la communication nest pas termine

16

Sur la base de ce mtalanguage ouvert de gnration et de reconnaissance de rseaux smantiques, un cycle auto-gnrateur dexprimentation collective et de cration doutils mnera au dcolage du mdium algorithmique du futur.

La rvolution de la communication nest pas termine

Entre 1950 et 1980, loiseau du mdium algorithmique dormait dans loeuf des gros ordinateurs. Il a clos comme rseau entre 1980 et 1995 avec lInternet et les PC. Il a accompli sa maturation multimdia, interactive et sociale grce au Web depuis 1995. Mais il na encore jamais vritablement dcoll. Il senvolera la n de la seconde dcennie du XXIe sicle, partir dun seuil critique dans ladoption dIEML (ou de tout autre systme universel de codage computationnel du sens). Cela signie dabord que la rvolution de la communication est tout sauf termine et que nous nen avons encore vu que les premiers dbuts. Plus la socit humaine et ses institutions seront data-centriques, et plus la matrise des donnes - commencer par leur matrise intellectuelle - deviendra un enjeu scientique, politique, social et conomique majeur. La capacit universelle dmission tant acquise, lvolution techno-culturelle va se dplacer vers le perfectionnement des capacits collaboratives de production, danalyse, de synthse et de transformation des ux et stocks de donnes. Aujourdhui, seuls les gouvernements, les grandes entreprises et les grands centres de recherche acadmiques ont les moyens nanciers et les comptences pour extraire des informations pertinentes dnormes masses de donnes. Demain, des outils accessibles gratuitement partir de toutes les tablettes permettront de produire, dacheminer, de fouiller et danalyser collaborativement locan des donnes. La matrise thorique et pratique de ces outils sera enseigne lcole primaire. Les algorithmes sur lesquels ils reposeront seront distribus, ouverts, transparents, inter-oprables, personalisables volont et utiliseront toute la puissance du cloud computing. IEML se situe lavant-garde de ce mouvement indissolublement technique, scientique et culturel. Le mdium typographique supportait la reproduction et la diusion automatique des symboles. Il a permis le dveloppement de formes culturelles indites avant lui telles que la science exprimentale et mathmatique de la nature, lconomie industrielle et ltat-nation. Le mdium algorithmique supporte la manipulation et la transformation automatique des symboles. La socit datacentrique base sur le mdium algorithmique du futur sera sans doute aussi dirente de la socit industrielle que lEgypte pharaonique base sur lcriture hiroglyphique ltait des tribus prhistoriques.