Comprendre La Révolution de Lintelligence Artificielle (Stéphane Dascoli (DASCOLI, Stéphane) ) @lechat

Stéphane d’Ascoli
Comprendre
la révolution de
l’intelligence
artificielle
© Éditions First, un département d’Édi8, Paris, 2020.
« Cette œuvre est protégée par le droit d’auteur et strictement réservée à l’usage privé du client.
Toute reproduction ou diffusion au profit de tiers, à titre gratuit ou onéreux, de tout ou partie de
cette œuvre, est strictement interdite et constitue une contrefaçon prévue par les articles L 335-2
et suivants du Code de la Propriété Intellectuelle. L’éditeur se réserve le droit de poursuivre toute
atteinte à ses droits de propriété intellectuelle devant les juridictions civiles ou pénales. »
ISBN : 978-2-412-05591-5
ISBN numérique : 978-2-412-05878-7
Correction : Anne-Lise Martin
Éditions First, un département d’Édi8

92, avenue de France
75013 Paris
France
Tél : 01 44 16 09 00
Fax : 01 44 16 09 01
Email : firstinfo@efirst.com
Ste internet : www.lisez.com
Ce document numérique a été réalisé par Nord Compo.

À mes parents bien-aimés.
AVANT-PROPOS
Elle nous guide au volant aujourd’hui et le maniera à notre place
demain. Elle détecte des tumeurs aujourd’hui et les opérera demain. Elle
répond à nos questions aujourd’hui et s’en posera peut-être elle-même
demain…
L’intelligence artificielle (IA) est partout, tout comme les voitures. À la

différence près que les voitures, nous comprenons à peu près leur
fonctionnement. Nous savons plus ou moins ce qu’il y a sous leur capot,
parce qu’un beau jour, quelqu’un l’a soulevé et nous a expliqué ce qui s’y
cachait.
Alors, pourquoi ne sait-on pas comment fonctionne cette IA qui

s’empare de nos vies ? Peut-être parce que le plus souvent elle n’a pas
d’incarnation physique : on ne la voit pas, donc on a moins envie de s’y
intéresser. Peut-être aussi parce qu’on l’utilise de manière passive et
parfois même inconsciente, donc on n’a pas particulièrement besoin de
savoir comment elle fonctionne. Peut-être même n’a-t-on pas envie de
savoir comment elle marche, parce qu’on a entendu dire que nos
smartphones savent tout de nous et le partagent à tout-va, et qu’on
préfère ne pas mettre son nez dans ces affaires peu scrupuleuses.
Pourtant, l’IA aura sans doute bien plus d’influence que les voitures sur
la vie des humains nés aujourd’hui, et si vous avez ouvert ce livre, c’est
sûrement parce que vous avez envie d’y comprendre quelque chose.
Peut-être que votre meilleure amie, votre compagnon, votre belle-mère
ou vos collègues travaillent sur l’IA et que vous voulez mettre un pied
dans leur monde. Peut-être que votre métier a un lien avec l’IA, et que
vous voulez élargir un peu votre horizon professionnel mais ne savez
pas par où commencer. Ou peut-être que vous êtes tout simplement
curieux, et voulez enfin comprendre ce sujet dont on nous rebat les
oreilles dans les médias.
Si les mathématiques sont pour vous une contrée lointaine, pas de

panique ! Tout comme il n’est pas nécessaire d’avoir un diplôme
d’ingénieur pour se faire une idée du fonctionnement d’une voiture, il est
tout à fait possible de décrire l’IA sans mathématique. C’est le défi que je
me suis lancé dans ce livre.
Premièrement, parce que c’est important. J’ai souvent entendu des

personnes me confier qu’elles ne conduisaient jamais avec le régulateur
de vitesse parce qu’elles ne lui faisaient pas confiance. Qu’en sera-t-il
pour les voitures autonomes ? Sommes-nous prêts à nous laisser
conduire par une IA à laquelle nous ne comprenons rien ? Pour se faire
un avis éclairé sur l’utilisation d’une IA, il est préférable de commencer
par comprendre ses rouages internes.
Deuxièmement, parce que c’est fascinant. Nul besoin d’être un fan

inconditionnel de science-fiction pour s’émerveiller, et parfois s’affoler,
devant la qualité d’une peinture, d’un morceau de musique ou d’un récit
fabriqué de toutes pièces par une IA. La révolution actuelle ouvre la
porte à des questions très profondes : comment l’IA perçoit-elle notre
monde ? Qu’est-ce que la créativité, l’intelligence et la conscience, et l’IA
peut-elle en faire preuve ? Comment l’intégrer sainement dans nos
sociétés ?
Un fossé est en train de se creuser entre ceux qui s’intéressent à l’IA et
ceux qui n’osent pas se pencher sur la question. Mon objectif est
d’essayer de combler celui-ci.
CHAPITRE 1
LE MONDE
DES ALGORITHMES
Humains curieux, bouclez votre ceinture. Pour rencontrer
cette chose mystérieuse que certains appellent intelligence
artificielle, vous devrez voyager vers une planète fort éloignée
de la nôtre : celle des algorithmes.
QU’EST-CE QU’UN ALGORITHME ?

Ne soyez pas effrayé par le mot algorithme, la réalité définie par ce mot
est en fait très simple et banale : un algorithme est une série
d’opérations visant à accomplir une tâche. Lorsque vous cuisinez un
gâteau, vous exécutez un algorithme : préchauffer le four, préparer la
pâte, la verser dans un moule, enfourner le gâteau et le sortir du four à
temps… En informatique, c’est la même chose : tout ce que sait faire un
ordinateur, c’est suivre une suite de règles opératoires écrites sous la
forme d’un programme, lui-même codé dans un langage informatique.
Les ordinateurs vivent dans un monde bien différent du nôtre : le monde

numérique. En effet, tout ce que sait faire un algorithme, c’est manipuler
des nombres : comparer, additionner, multiplier… Le mot algorithme
vient d’ailleurs du nom d’un mathématicien persan, Al-Khwarizmi, qui
introduisit notre système de nombres actuel au IXe siècle.
Les ordinateurs parlent également une langue bien différente des

nôtres : le binaire. Ils communiquent à l’aide de minuscules
interrupteurs appelés transistors, et leurs lettres, appelées bits, sont
représentées par l’alphabet le plus simple du monde : 0 quand
l’interrupteur est éteint, 1 quand il est allumé. Comme dans le langage
morse, pour représenter notre propre alphabet, il faut regrouper les bits
par paquets. Avec un paquet de 8 bits (appelé octet), on a déjà
256 combinaisons possibles, ce qui nous permet de représenter les
nombres de 1 à 10, tout l’alphabet latin, ainsi qu’une multitude de
caractères spéciaux ! Ainsi, le mot « b-i-t », constitué de trois lettres,
s’écrit de la manière suivante pour un ordinateur : 01100010-01101001-
01110100.
Cela nous amène à une autre grande différence : le monde numérique

est un monde discontinu, découpé en petits intervalles. Avant le
numérique, les photographies et les enregistrements sonores étaient
analogiques : ils résultaient directement de l’empreinte de la lumière sur
une pellicule, ou de l’action d’ondes sonores sur une membrane. De nos
jours, les photographies numériques découpent les images en pixels, et
les fichiers MP3 découpent la musique en une série de très courts
échantillons. Tout cela pour pouvoir stocker les fichiers sous forme de
zéros et de uns.
Dans chaque cas, on perd de l’information dans le découpage, mais on

n’y voit (presque) que du feu, car le découpage est très fin. Néanmoins,
c’est assez pour parler d’un saut qualitatif vis-à-vis de notre monde réel,
et inciter les passionnés à utiliser des appareils photo analogiques ou
des lecteurs vinyle.
COMMENT FABRIQUER
UN ALGORITHME ?
Pour écrire un algorithme, il suffit d’un peu de bon sens. Mais il y a
souvent plusieurs manières d’accomplir une même tâche, et certaines
d’entre elles sont bien plus efficaces que d’autres !
Voici un problème pour vous : vous êtes au supermarché, et à la sortie,

un de vos articles sonne devant le portique antivol. Comment trouver
l’article responsable ? Rien de plus simple, me diriez-vous : vous placez
chaque article devant le portique jusqu’à ce que vous trouviez celui qui
sonne. C’est probablement ce que vous feriez en pratique, car vous avez
un nombre raisonnable d’articles.
Mais si vous aviez cent articles dans votre chariot, cette méthode vous
condamnerait potentiellement à tester les cent articles ! Une méthode
bien plus efficace serait de séparer le chariot en deux tas de cinquante
articles, et de commencer par passer le premier tas devant le portique.
S’il sonne, vous cherchez uniquement au sein de ce tas, sinon vous
cherchez dans l’autre. Dans les deux cas, vous avez déjà éliminé la
moitié des articles d’un seul coup ! En répétant cette procédure, vous
trouverez l’article responsable à coup sûr en seulement sept coups. Vous
appliquez alors une des méthodes les plus fondamentales de
l’algorithmique, dont la devise fut inventée par les sénateurs romains :
« Diviser pour régner. »
Cet exemple simpliste est assez emblématique de l’algorithmique : les

briques de base sont des « boucles » (tant que tu n’es pas venu à bout du
chariot, fais ceci) et des « conditions » (si le portique sonne, fais ceci,
sinon fais cela). Comme on vient de le voir, on peut souvent réduire
grandement le nombre de répétitions d’une boucle en réfléchissant un
peu ! Maintenant, à vous d’essayer :
1. On vous donne une pile de cartes numérotées, rangées par ordre
croissant (les nombres ne sont pas forcément consécutifs, et le nombre
de cartes est potentiellement très grand). Quelle serait, selon vous, la
méthode optimale pour trouver un nombre donné, par exemple 42 *1 ?
2. Plus difficile : cette fois le paquet de cartes est dans le désordre.

Quelle serait la méthode optimale pour ranger les cartes par ordre
croissant *2 ?
INTELLIGENCE ARTIFICIELLE,
MACHINE LEARNING, DEEP
LEARNING : KÉZAKO ?
L’intelligence artificielle (IA) est un terme vague, subjectif, dont le sens
évolue au gré des avancées techniques. À l’origine, une IA n’est rien
d’autre qu’un algorithme dont le but est de prendre des décisions
relevant d’une certaine forme d’intelligence. En pratique, la pertinence
du mot « intelligence » est discutable dans la plupart des cas, mais par
simplicité, le terme générique d’IA sera utilisé tout au long du livre pour
englober les différents algorithmes que nous rencontrerons.
Un exemple vaut mille mots : quand vous jouez aux échecs contre
l’ordinateur, vous jouez contre une IA. Dans cette situation, on peut
imaginer deux types d’algorithmes :
• L’algorithme à base de règles : il choisit son coup suivant en fonction

d’un ensemble de règles qui ont été prédéfinies (dans telle situation,
avance ce pion). L’ordinateur n’apprend pas : il se contente d’exécuter les
ordres qu’on lui donne. On parle d’IA symbolique.
• L’algorithme d’apprentissage : l’ordinateur calcule lui-même la

meilleure décision à prendre. Il est libre de s’adapter à la situation et
exécute les coups qu’il estime les plus judicieux. Pour atteindre un tel
niveau de jugement, l’ordinateur traverse d’abord une phase
d’apprentissage à partir d’exemples. On parle d’apprentissage machine,
ou machine learning en anglais. La plupart des algorithmes
d’apprentissage se rapportent à l’IA connexionniste.
Le machine learning est donc un sous-domaine de l’intelligence

artificielle, au sein duquel les algorithmes apprennent, à partir
d’exemples, à exécuter des tâches pour lesquelles ils n’ont pas
explicitement été programmés.
Le deep learning est un sous-domaine du machine learning dont le

fonctionnement est calqué sur celui de notre cerveau. Extrêmement
puissants, les algorithmes de deep learning sont à l’origine de la plupart
des percées récentes et permettent de réaliser des tâches très complexes,
par exemple liées à l’image ou au langage.
Dans cet ouvrage, nous allons ouvrir progressivement cette poupée

russe, en décrivant successivement l’intelligence artificielle, puis le
machine learning, puis le deep learning. Il est en effet important de
comprendre chaque concept avant de passer au suivant.
L’IA est séparée en deux catégories : les algorithmes à base de règles (IA symbolique) et les
algorithmes d’apprentissage (IA connexionniste).
*1. Méthode naïve : énumérer les cartes une à une jusqu’à arriver à la bonne. Méthode efficace
(recherche par dichotomie) : diviser la pile en deux sous-piles de taille égale, A et B (les cartes
de A sont de plus faible valeur que celles de B). Si la valeur de la première carte de B est plus
élevée que 42, vous savez que vous devez chercher dans A ; sinon, vous devez chercher dans B.
Répétez la procédure jusqu’à découvrir le nombre 42.
*2. Méthode naïve : constituer une nouvelle pile rangée en y insérant une à une des cartes de
la pile de départ. Méthode efficace (tri par pivot) : choisir au hasard une carte qui sera nommée
le « pivot ». Placer les cartes plus faibles que le pivot dans une sous-pile A et les cartes les plus
fortes dans une sous-pile B. Répéter l’opération pour A et B, et ainsi de suite jusqu’à ce qu’A et
B soient triés. vous n’aurez plus qu’à concaténer A, le pivot, puis B pour obtenir une pile triée.
CHAPITRE 2
L’INTELLIGENCE
ARTIFICIELLE
DES MYTHES ORIGINELS
À AUJOURD’HUI
L’histoire de l’IA est mouvementée. C’est l’histoire d’une

guerre d’idées, entre matérialistes et idéalistes ; d’une guerre
de méthodes, entre connexionnistes et symbolistes ; d’une
guerre de financements, entre les chercheurs et les
investisseurs ; d’une guerre d’ego, entre l’homme et la
machine…
Pour ne pas vous perdre dans le cours des événements,

n’hésitez pas à vous référer à la frise chronologique située en
fin de chapitre.
QUAND EST NÉE L’IA ?

L’IA prend ses racines dans l’Antiquité, sous la forme de mythes tels que
celui de Pygmalion, tombé amoureux de sa statue vivante, Galatée.
L’idée de créer des êtres artificiels dotés d’une conscience est
simplement une expression de la volonté humaine de s’approprier des
pouvoirs divins de création. C’est également au cours de l’Antiquité
qu’apparaissent les premiers algorithmes mathématiques. Le célèbre
algorithme d’Euclide permettant de trouver le plus grand diviseur
commun à deux nombres est encore enseigné à l’école de nos jours.
Dès le XVIIe siècle, de vifs débats divisent les penseurs autour de ce que
l’on appelle de nos jours le computationnalisme – la possibilité de
réduire la pensée à un ensemble de processus logiques reproductibles
sur un ordinateur. « La raison n’est rien d’autre que le fait de calculer »,
peut-on lire dans le Léviathan, écrit par Thomas Hobbes en 1651. Cette
question oppose deux grandes branches de la philosophie de l’esprit : les
idéalistes, qui affirment que la pensée est au-dessus de la matière, et les
matérialistes, qui pensent au contraire qu’elle n’est qu’une émanation
de la matière.
La logique binaire, celle des algorithmes, se développe ensuite petit à

petit, d’abord avec Gottfried Leibniz en 1702, puis avec George Boole
en 1854. Le premier programme informatique de l’histoire est écrit
en 1842 par Ada Lovelace, brillante fille du poète Lord Byron. Le
programme était destiné à fonctionner sur un ancêtre de l’ordinateur
moderne imaginé par son ami mathématicien Charles Babbage, la
machine analytique.
Il faut attendre les années 1930-1940 pour voir apparaître les premiers
ordinateurs tels que nous les connaissons aujourd’hui. Ces mêmes
années, le célèbre mathématicien anglais Alan Turing montre que ces
derniers peuvent simuler tout processus logique, et les
neuroscientifiques Warren McCulloch et Walter Pitts imaginent un
premier modèle mathématique simplifié des neurones de notre cerveau.
Ces événements donnent corps aux idées computationnalistes et
préparent un terreau favorable à l’émergence de l’IA.
Durant l’été 1956, les chercheurs américains Marvin Minsky et John

McCarthy organisent un atelier scientifique dans la petite ville
américaine de Dartmouth, non loin de Boston, afin d’étudier la
possibilité de créer des machines pensantes. On y présente des
algorithmes capables de démontrer des théorèmes mathématiques, des
méthodes utilisées encore aujourd’hui dans les algorithmes d’échecs…
C’est à cette occasion que McCarthy convainc l’auditoire d’accepter
l’expression « intelligence artificielle » comme intitulé du domaine.
À QUOI RESSEMBLAIENT
LES PREMIERS ALGORITHMES D’IA ?
De l’événement fondateur de la conférence de Dartmouth au milieu des
années 1970, l’IA est en plein essor. Depuis les débuts, deux grandes
approches se confrontent :
• Les symbolistes, partisans de l’IA symbolique, entendent représenter

les processus cognitifs explicitement, sous la forme d’un langage
symbolique logique, compréhensible par l’ordinateur. En d’autres
termes, il s’agit de guider les décisions de la machine à l’aide d’un
ensemble de règles.
• Les connexionnistes, partisans de l’IA connexionniste, préfèrent

simuler les processus biologiques de notre cerveau qui sont à l’origine
des processus cognitifs. En quelque sorte, doter la machine d’une sorte
de cerveau artificiel, et la laisser libre d’apprendre par elle-même, à partir
d’exemples et non de règles.
L’approche connexionniste est davantage de nature empirique que
théorique : elle offre moins de contrôle et d’intuition sur ce qui se passe,
mais nous verrons qu’elle s’avère aujourd’hui plus efficace.
En 1957, le psychologue américain Frank Rosenblatt pose la première

pierre de la vision connexionniste : le perceptron. Ce n’est rien d’autre
qu’une grosse machine qui simule mécaniquement le fonctionnement
d’un neurone biologique.
Parallèlement, les symbolistes s’enthousiasment pour des algorithmes

capables de résoudre des problèmes de plus en plus complexes. Un
algorithme répandu est celui du retour sur trace. Il s’agit d’explorer
naïvement tous les chemins possibles pour arriver à la solution, en
revenant en arrière dès que l’on est dans une impasse. C’est la méthode
qu’on utilise faute de mieux pour s’échapper d’un labyrinthe : à chaque
intersection on choisit une direction, et à chaque cul-de-sac on revient
en arrière jusqu’à la dernière intersection dont on n’a pas exploré toutes
les directions.
L’heure est à l’optimisme : les chercheurs en IA pronostiquent alors

qu’en une génération à peine, on pourrait doter les machines d’une
intelligence humaine !
QU’EST-CE QUE LES HIVERS DE L’IA ?

À partir du milieu des années 1970, ces mêmes chercheurs réalisent
qu’ils ont vendu la peau de l’ours avant de l’avoir tué. Les pronostics
s’avèrent irréalistes : l’IA n’allait pas être un défi aussi simple qu’ils
l’imaginaient. Jusque dans les années 1990, l’IA connaît une progression
en dents de scie, où alternent des périodes d’enthousiasme et de
pessimisme.
PREMIER HIVER
À partir du milieu des années 1970, un grand obstacle barre la route au
progrès : le manque de puissance de calcul des ordinateurs de l’époque.
Le pessimisme prend le dessus et les financements se tarissent : on parle
du premier hiver de l’IA.
D’un côté, les algorithmes connexionnistes basés sur le perceptron

perdent en crédibilité : Marvin Minsky, père fondateur de l’IA, montre
qu’ils sont difficiles à faire fonctionner et limités à des tâches très
simples.
De l’autre, les algorithmes symboliques échouent dès que le problème

met en jeu un trop grand nombre de chemins, malgré des méthodes
pour éviter les fausses routes. Pas étonnant quand on pense que pour
résoudre un simple Rubik’s Cube en essayant dix actions aléatoires par
seconde, il faudrait une centaine de milliards d’années…
REPRISE AVEC LES SYSTÈMES EXPERTS

Au début des années 1980, l’IA reprend des couleurs avec les systèmes
experts. Ce sont des algorithmes symboliques qui excellent dans des
domaines très spécifiques grâce à des règles établies par des experts
humains du domaine. Les premières applications industrielles de l’IA se
développent.
Le connexionnisme bénéficie également de la reprise des financements.

En 1982, le neuroscientifique américain John Hopfield imagine des
réseaux de neurones imitant des processus de mémoire. En 1989, le
chercheur français Yann Le Cun met au point le premier réseau de
neurones artificiel capable de reconnaître des chiffres écrits à la main.
Mais l’explosion du deep learning est encore bien loin : c’est en 2019 que
sa contribution (ainsi que celle de deux pionniers canadiens du
domaine, Geoffrey Hinton et Yoshua Bengio) sera récompensée par le
prix Turing, sorte de prix Nobel de l’informatique.
SECOND HIVER
Vers la fin des années 1980, l’engouement stagne à nouveau du fait des
limites des systèmes experts, incapables de voir plus loin que le bout de
leur nez. Ultra-spécialisés dans une tâche précise, appliquant bêtement
des ordres sans discernement, ils sont bien loin des espoirs d’une
véritable IA généraliste qui avaient nourri les financements de
recherche. Ceux-ci s’assèchent à nouveau : c’est le second hiver de l’IA.
COMMENT LE DEEP LEARNING A-T-IL

PRIS LE DESSUS ?
LA LOI DE MOORE
Heureusement, dès les années 1990, le printemps revient de nouveau. La
puissance de calcul, principal facteur limitant le développement de l’IA
sous toutes ses formes, entame une progression exponentielle grâce aux
progrès en miniaturisation. C’est la fameuse loi de Moore : à prix égal, la
puissance de calcul des processeurs double tous les deux ans.
Le premier fracas médiatique de l’IA fut la victoire de l’ordinateur Deep

Blue, conçu par IBM, face au champion du monde d’échecs, Garry
Kasparov, en 1996. Cet événement célébrissime ne marquait pourtant
pas une véritable révolution du point de vue technologique. Deep Blue
était un monstre de puissance brute, capable d’envisager des centaines
de millions de positions par seconde. Mais ce n’était qu’un système
expert : il ne mettait pas en jeu un réel apprentissage.
À la fin du XVIIIe siècle, l’inventeur hongrois Wolfgang von Kempelen
piégea d’éminents empereurs tels que Napoléon Bonaparte avec un
célèbre canular : le Turc mécanique. La supercherie consistait en un
prétendu automate capable de jouer aux échecs derrière lequel se
cachait en réalité un talentueux marionnettiste.
Deux siècles plus tard, Kasparov perdait sa partie historique contre

Deep Blue, en grande partie à cause d’erreurs tactiques dues à
l’intimidation exercée par l’ordinateur d’IBM. Ce dernier se donnait une
apparence humaine en simulant de longues phases de réflexion, alors
1
que son temps de calcul réel n’excédait jamais quelques secondes .
LA REVANCHE DES CONNEXIONNISTES

En 1993, Vladimir Vapnik met au point un des algorithmes de machine
learning les plus célèbres : la machine à support de vecteur. C’est une
sorte de perceptron amélioré, bien plus performant. Les algorithmes
connexionnistes commencent dès lors à prendre le dessus sur les
algorithmes symboliques.
Mais la réelle révolution n’intervient que dans les années 2010 : c’est
celle du deep learning. Pourquoi est-elle intervenue aussi tard, alors que
les réseaux de neurones artificiels existaient depuis des décennies ? Eh
bien, parce que les algorithmes de deep learning, comme tous les
algorithmes d’apprentissage, ont besoin de deux ressources en
abondance :
• La puissance de calcul. Celle-ci a explosé avec la loi de Moore, mais

également du fait d’une innovation majeure : l’utilisation de processeurs
graphiques (voir encadré ci-dessous), qui permettent de réaliser un
nombre faramineux de calculs simples en parallèle. Cette puissance est
particulièrement adaptée à l’entraînement des réseaux de neurones, qui
doivent ajuster des millions de paramètres pour apprendre.
• Les données d’entraînement. Ce sont les exemples que l’on présente

au réseau de neurones pour qu’il apprenne. Pour réaliser des tâches
complexes comme la reconnaissance d’image, il en faut en grande
quantité. Mais justement, ces données deviennent massivement
disponibles à l’ère du Big Data. Du côté public, de grandes bases sont
rendues libres d’accès à des fins de recherche, comme la banque
d’images ImageNet en 2009. Du côté privé, les données personnelles
sont récoltées et s’échangent à qui mieux mieux.
Les processeurs de calcul, cerveaux des ordinateurs, sont subdivisés en

plusieurs « cœurs », dont chacun est une sorte de sous-cerveau
indépendant. Les processeurs habituels (CPU en anglais pour Central
Processing Unit) sont constitués d’un nombre très restreint de cœurs,
réalisant chacun des calculs lourds. À l’inverse, les processeurs
graphiques (GPU en anglais pour Graphical Processing Unit) disposent
d’une multitude de cœurs pour pouvoir s’occuper de millions de pixels
simultanément.
En 2012, Geoffrey Hinton crée la surprise avec ses étudiants de

l’université de Toronto en remportant haut la main le prestigieux
concours de reconnaissance d’image ImageNet en utilisant des réseaux
de neurones artificiels fonctionnant sur processeurs graphiques. C’est le
début de la révolution : l’année suivante, le même concours sera dominé
par des réseaux de neurones artificiels.
En 2016, deux décennies après le triomphe de Deep Blue, DeepMind,
filiale de Google spécialisée dans l’intelligence artificielle de pointe,
défraye de nouveau la chronique. Lors d’un match hautement médiatisé,
son algorithme AlphaGo terrasse le champion du monde de go, Lee
Sedol, par quatre victoires à une. La maîtrise du jeu de go, bien plus
complexe que le jeu d’échecs, était jusqu’alors considérée comme hors
de portée de l’IA.
Frise chronologique résumant l’histoire de l’intelligence artificielle

CHAPITRE 3
COMPRENDRE
LE MACHINE LEARNING
QU’EST-CE QU’UN ALGORITHME
DE MACHINE LEARNING ?
Les algorithmes d’apprentissage ont mis un bout de temps à se
faire connaître, étant auparavant dominés par les algorithmes
à base de règles. Aujourd’hui, c’est pourtant le machine
learning qui a pris le devant de la scène, à tel point que l’IA
symbolique est presque devenue obsolète… De fait, comment
peut-on apprendre quelque chose à une machine ?
COMPRENDRE GRÂCE À UN EXEMPLE TRÈS

SIMPLE
Vous voulez vendre votre vieille moto, achetée il y a trois ans, mais ne
savez pas à quel prix la mettre en vente. Pour cela, il vous faudrait
connaître l’évolution typique de son prix de revente en fonction de son
âge. Que faites-vous ? Vous faites un tour sur un site de ventes
d’occasion, collectez quelques exemplaires de votre moto en relevant
leur âge et leur prix de revente, et consignez ces valeurs sous forme de
points sur le graphique ci-dessous.
Rapidement, vous vous apercevez que les points s’alignent plus ou

moins selon une droite imaginaire. Une fois celle-ci tracée, vous pouvez
l’utiliser pour prédire le prix de revente de votre moto, comme sur la
figure ci-dessous. Facile, non ?
Les points sont plus ou moins alignés selon la droite rouge. À partir de celle-ci, vous pouvez
prédire le prix de vente de votre moto achetée il y a trois ans : les flèches vertes indiquent que
vous pouvez espérer la vendre à 1 500 euros.
DES MACHINES À CURSEURS

En machine learning, on fait exactement la même chose : on apprend à
partir de données, et on espère pouvoir généraliser l’apprentissage à de
nouvelles données.
L’exemple précédent est une tâche très classique qui s’appelle la

régression linéaire. Il s’agit pour l’algorithme de trouver la « meilleure
droite », celle qui passe au plus près des points. Pour cela, il dispose de
deux variables d’ajustement : la « pente » de la droite, qui nous dit
combien le prix diminue chaque année (500 euros par an ici), et sa
« hauteur » (le point où la droite croise l’axe vertical), qui nous donne le
prix à l’état neuf de la moto (3 000 euros ici).
Il faut imaginer ces deux variables d’ajustement comme deux curseurs

avec lesquels peut jouer l’algorithme. Il les ajuste jusqu’à la découverte
de la configuration optimale. Dans l’exemple précédent, où il fallait
prédire un prix en fonction d’un âge, les données étaient très simples, et
deux curseurs ont suffi pour les modéliser. Mais en machine learning, on
peut rencontrer des problèmes bien plus complexes. Je vous laisse
imaginer le nombre de curseurs que possède un algorithme assez
puissant pour reconnaître des visages humains !
Avant de continuer, arrêtons-nous un instant pour clarifier un point

important. Comme nous l’avons vu dans le chapitre 1, il existe des
algorithmes de machine learning qui n’utilisent pas de curseurs : nous
en verrons au chapitre 5. Mais pour simplifier, nous ne décrirons ici que
les algorithmes connexionnistes, qui utilisent des curseurs pour
apprendre. Ce sont les plus répandus, notamment depuis l’essor du deep
learning.
ET NOUS, D’ABORD, COMMENT APPRENONS-

NOUS ?
Notre cerveau, nec plus ultra de l’intelligence, est composé d’un
gigantesque réseau de neurones, qui communiquent entre eux en
s’envoyant des impulsions électriques à travers des interfaces de
communication appelées .
Plus précisément, un neurone est une cellule composée de trois parties :

les dendrites, le corps cellulaire et l’axone. À tout instant, le neurone
collecte des signaux en provenance d’autres neurones via les synapses
de ses dendrites, un ensemble de ramifications très fines qui
ressemblent aux racines d’un arbre. Les signaux sont acheminés vers le
corps cellulaire, centre de calcul du neurone, où ils sont additionnés. Si
la somme dépasse un certain seuil, le neurone envoie à son tour un
signal qui se propage le long de son axone, sorte de câble très long
(jusqu’à un mètre !), qui le relie à d’autres neurones ou fibres
musculaires. À nouveau, le signal est transmis à ces derniers au niveau
des synapses de l’axone.
Toute la transmission d’information se passe donc au niveau des

synapses, ces interfaces qui convertissent le signal électrique en un
message chimique en libérant des substances appelées
neurotransmetteurs, comme la dopamine et la sérotonine. Les
neurotransmetteurs ne sont pas tous identiques : certains, dits
excitateurs, contribuent positivement au signal envoyé tandis que
d’autres, dits inhibiteurs, contribuent négativement. En modifiant les
dosages des différents neurotransmetteurs, on peut donc adapter le
message à transmettre. Morale de l’histoire : les synapses sont autant de
curseurs que notre cerveau peut ajuster pour apprendre.
COMMENT APPREND L’ALGORITHME ?

Un principe très courant en intelligence artificielle est de quantifier la
performance de l’algorithme par un score, qui s’appelle la fonction de
perte (plus la perte est élevée, moins la performance est bonne).
L’algorithme n’est ainsi rien d’autre qu’un élève auquel on donne une
mauvaise note (une perte élevée) lorsqu’il récite mal sa leçon.
Dans l’exemple du prix de vente d’une moto d’occasion, la fonction de

perte sera d’autant plus élevée que la droite passe loin des points. Pour
apprendre, il suffit donc à l’algorithme d’ajuster ses curseurs pour faire
diminuer cette fonction de perte.
LE PROBLÈME : LA MALÉDICTION
DE LA DIMENSIONNALITÉ
Malheureusement, ajuster les curseurs de manière optimale devient un
problème d’autant plus difficile que le nombre de curseurs est élevé !
C’est comme essayer de déverrouiller un cadenas : plus il y a de chiffres,
plus il faut essayer de combinaisons pour trouver le code. Or, les
algorithmes modernes utilisent des nombres titanesques de curseurs
(plusieurs milliards parfois). C’est ce que l’on appelle la malédiction de
la dimensionnalité (la dimensionnalité désigne le nombre de curseurs
en jeu).
Prenons un exemple simple. Vous organisez une soirée d’entreprise sur

deux péniches. Vous devez répartir les 200 salariés de l’entreprise en
deux groupes de 100, de manière que ceux qui s’apprécient se retrouvent
ensemble et ceux qui ne s’apprécient pas soient séparés. Vous pouvez
formaliser cela mathématiquement : lorsque deux personnes qui
s’apprécient sont sur le même bateau, le score augmente de 1, et si elles
ne s’apprécient pas, il diminue de 1. Ce problème est en apparence très
simple, mais pour être sûr d’obtenir le score optimal, il faudrait essayer
toutes les combinaisons possibles.
Il s’avère que dans cette situation, le nombre de combinaisons à essayer

est d’environ 1059, c’est-à-dire 1 suivi de 59 zéros ! Si le supercalculateur
le plus puissant de la planète essayait de tester toutes ces combinaisons,
il mettrait plus de temps qu’il ne s’en est écoulé depuis la naissance de
l’Univers…
LA SOLUTION : LES ALGORITHMES
DE RECHERCHE LOCALE
Heureusement, dans le cas du machine learning, on se moque bien de
trouver la solution parfaite, nous verrons même que celle-ci est à éviter
en pratique ! Il est en fait assez facile d’obtenir une solution tout à fait
convenable en utilisant des algorithmes de recherche locale. Ceux-ci
consistent à partir d’une configuration aléatoire, puis à améliorer le
score par petits pas.
Dans l’exemple des péniches, on tire au hasard une personne dans

chaque péniche, et on les échange si c’est bénéfique (si le score
augmente à la suite de l’échange). On recommence jusqu’à l’obtention
d’une configuration satisfaisante, pour laquelle la plupart des échanges
deviennent contre-productifs.
Revenons à nos curseurs. Si on devait les ajuster manuellement, une

méthode serait de tourner légèrement chaque curseur dans un sens puis
dans l’autre, et de choisir le sens qui fait diminuer la fonction de perte.
Lorsque pour chaque curseur les deux sens font augmenter la fonction
de perte, on déclare que l’apprentissage est terminé, car on ne peut plus
améliorer la configuration. C’est le principe de l’algorithme de recherche
locale *1 le plus utilisé en machine learning, la descente du gradient :
estimer comment la fonction de perte varie en fonction de chacun des
curseurs pris indépendamment des autres, et les ajuster en conséquence,
par petits coups.
Pourquoi parle-t-on de recherche locale ? Parce qu’on ne fait que des

petits pas, et donc on reste proche de la configuration initiale. Il faut
imaginer l’ensemble des configurations des curseurs comme une
gigantesque chaîne de montagnes à explorer. En chaque point, l’altitude
représente la valeur de la fonction de perte. Pour trouver la meilleure
configuration possible, c’est-à-dire le point le plus bas, il faudrait
explorer tout le paysage, ce qui est impossible par manque de temps. On
se contente donc, à partir d’un point de départ, de descendre la pente
jusqu’à ce qu’on se retrouve bloqué dans une cuvette, comme l’illustre la
figure de la page suivante.
ALGORITHME DE DESCENTE DU GRADIENT. La balle descend la pente jusqu’à ce qu’elle atteigne une
cuvette au fond de laquelle elle reste bloquée. Elle atteint un point relativement bas (minimum
local), mais pas le point le plus bas, signalé par une étoile (minimum global).
QU’EST-CE QUE LA GÉNÉRALISATION ?

Plus un algorithme dispose de curseurs, plus sa capacité à faire diminuer
la fonction de perte sera élevée, et donc plus il pourra résoudre des
problèmes complexes. Mais attention, le mieux peut être l’ennemi du
bien…
L’OVERFITTING : QUAND LES ALGORITHMES

APPRENNENT COMME DES PERROQUETS
Eurêka ! Vous entraînez votre algorithme, et celui-ci atteint une perte
très basse. Vous vous frottez les mains avec satisfaction et vous dites
que, finalement, ce n’était pas si difficile que cela. Pas si vite ! Vous
oubliez que la perte traduit uniquement les performances de votre
algorithme sur les données avec lesquelles vous l’avez entraîné. Cela ne
garantit absolument pas qu’il aura de bonnes performances sur des
données qu’il n’a jamais vues, c’est-à-dire qu’il pourra généraliser ce
qu’il a appris !
Logique : ce n’est pas parce qu’un élève récite bien sa leçon de

mathématiques qu’il l’a vraiment comprise… C’est pourquoi on teste les
élèves lors des examens. En machine learning, c’est pareil : on évalue
d’abord les performances sur les données d’entraînement, puis sur les
données de test.
Imaginons que l’algorithme ait réussi à atteindre la valeur optimale de

zéro pour la fonction de perte. Dans notre exemple des motos, ce serait
le cas si l’algorithme disposait d’un grand nombre de curseurs, et les
avait réglés avec tant de zèle qu’il arriverait à recracher le prix de vente
exact de chacune des milliers de motos qu’on lui a présentées lors de
l’entraînement (voir figure suivante).
Tout se passe comme si l’algorithme avait choisi d’apprendre par cœur,

comme un perroquet, le prix des motos, plutôt que d’estimer la manière
dont le prix décroît avec les années. On parle d’overfitting, ce qui signifie
littéralement « surentraînement ». Comme le disait Montaigne, mieux
vaut une tête bien faite qu’une tête bien pleine…
La solution en rouge est bien plus pertinente que la solution en noir, qui cherche obstinément à
passer par tous les points. Dans le premier cas, l’algorithme possédait pile le bon nombre de
curseurs (deux ici comme sur un joystick), alors que dans le deuxième cas, il en possédait trop
(comme sur une manette de console), ce qui l’a poussé au overfitting !
LE DILEMME BIAIS-VARIANCE :
TOUT EST QUESTION DE COMPROMIS
L’overfitting est ce qui rend le machine learning à la fois frustrant et
passionnant. Chercher à trop optimiser la fonction de perte, en prenant
trop de curseurs ou en s’entraînant pendant trop longtemps, peut nuire
au véritable objectif, qui est la généralisation.
En effet, il y a une part de variabilité aléatoire dans toute donnée : le prix

des motos n’est pas parfaitement aligné selon une droite, il est « bruité ».
Si un algorithme cherche à trop optimiser sa fonction de perte, il va finir
par apprendre ce bruit, plutôt que la véritable tendance des données (le
fait que le prix décroît avec les années). En d’autres termes, il se sur-
spécialise dans les données d’entraînement qu’on lui a présentées *2.
Tout est donc une question de compromis. Il faut choisir le bon nombre
de curseurs, pour extraire la bonne quantité d’information des données
d’entraînement.
• Underfitting : un algorithme avec trop peu de curseurs ne soutirera pas
assez d’informations. On dit qu’il souffre d’un biais élevé. Pour espérer
généraliser son apprentissage, il faut déjà avoir appris quelque chose !
• Overfitting : un algorithme avec trop de curseurs mémorisera des

informations inutiles. On dit qu’il souffre d’une variance élevée : il est
très sensible au bruit des données, comme on peut le voir dans la figure
précédente.
C’est le principe du dilemme biais-variance, illustré dans la

figure suivante : le bon nombre de curseurs permet d’apprendre la
tendance des données sans apprendre le bruit insignifiant.
L’auteur argentin Jorge Luis Borges illustre cette subtile notion de

généralisation dans sa nouvelle Funes ou la Mémoire 2, dont le héros
éponyme souffre d’une mémoire infinie. Funes prête tant d’attention
aux détails qu’il ne comprend pas que le nom générique de « chien »
puisse englober des créatures de tailles et formes aussi différentes.
Cette hypermnésie l’empêche d’abstraire, et ainsi de comprendre le
monde qui l’entoure car, selon l’auteur, « penser, c’est oublier des
différences ».
DILEMME BIAIS-VARIANCE . Les algorithmes trop simples, avec peu de curseurs, souffrent d’un biais
(courbe bleue) élevé (leçon mal apprise), alors que les algorithmes trop complexes, avec trop de
curseurs, souffrent d’une variance élevée (courbe rouge). L’erreur de généralisation, en noir, est la
somme de ces deux quantités. Le bon nombre de curseurs est atteint lorsque cette erreur est
minimale, comme indiqué en vert.
LA RÉGULARISATION : METTRE DES BÂTONS

DANS LES ROUES DE L’ALGORITHME
Dans notre exemple des motos, on aurait pu se douter que deux curseurs
suffisaient, car les points étaient répartis autour d’une droite. Mais bien
malin celui qui pourrait dire le bon nombre de curseurs à prévoir pour
reconnaître des visages ! Une chose est sûre : si on n’en prévoit pas
assez, on passera à côté de certaines informations. Avec trop de
curseurs, on n’en omettra peut-être aucune, mais il reste le risque
d’overfitting.
Une solution serait d’en prendre plus que le nécessaire, pour être sûr de
ne rien rater, mais de limiter leur utilisation. C’est le principe des
méthodes dites de régularisation, qui sont une sorte de régime
alimentaire pour algorithme : prévoir beaucoup de nourriture pour qu’il
ne souffre pas de faim, mais surveiller sa nutrition pour qu’il ne souffre
pas d’obésité.
Deux méthodes sont particulièrement courantes :
• Interrompre l’entraînement prématurément afin que l’algorithme ait un

temps limité pour ajuster les curseurs. C’est-à-dire lui enlever l’assiette
avant qu’il ait fini de manger.
• Lui mettre des bâtons dans les roues (en augmentant la fonction de
perte) chaque fois qu’il utilise un nouveau curseur, de manière qu’il les
utilise avec parcimonie. En d’autres termes, le punir à chaque bouchée.
En philosophie, « raser » signifie « éliminer des explications improbables

d’un phénomène ». Au XIVe siècle, le philosophe anglais Guillaume
d’Occam propose une méthode de raisonnement connue sous le nom
de rasoir d’Occam : Pluralitas non est ponenda sine necessitate (les
multiples ne doivent pas être utilisés sans nécessité). C’est exactement
le principe de la régularisation : chercher la solution suffisante la plus
simple possible.
QUELS SONT LES DIFFÉRENTS TYPES

D’APPRENTISSAGE ?
Jusqu’ici, nous n’avons rencontré qu’un type d’apprentissage, qui
consiste à apprendre la relation entre une donnée (âge de la moto) et
son « étiquette » (prix de la moto). Il correspond au plus répandu :
l’apprentissage supervisé. Mais il existe deux autres formes
d’apprentissage : l’apprentissage non supervisé, lorsqu’on ne fournit
pas d’étiquette à l’algorithme, et l’apprentissage par renforcement,
lorsqu’il apprend par un système de récompense en interagissant avec
un environnement.
L’APPRENTISSAGE SUPERVISÉ
Ici, on présente des données à l’algorithme, et celui-ci doit essayer de
recracher leurs étiquettes. Deux scénarios sont alors à distinguer.
• Lorsque l’on veut prédire des nombres, on parle de régression. C’est

exactement ce qu’on a vu avec l’exemple des motos.
• Lorsque l’on veut regrouper les données dans différentes catégories, on

parle de classification. Par exemple, il s’agit de séparer des objets de
couleurs différentes.
Ces deux scénarios sont illustrés dans la figure suivante.
APPRENTISSAGE SUPERVISÉ. Gauche : régression. L’algorithme apprend à prévoir le prix d’une moto
en fonction de son âge (droite en pointillés rouge) à partir des données d’entrée (points bleus).
Droite : classification. L’algorithme apprend à séparer les données d’entrée (croix vertes et
bleues) en traçant une frontière (en pointillés rouge).
L’APPRENTISSAGE NON SUPERVISÉ

Ici, on ne prémâche pas les données. L’algorithme est autonome, et doit
trouver par lui-même la structure inhérente aux données : il n’y a pas
d’étiquette pour « superviser ». Ci-dessous, vous trouverez l’illustration
de deux tâches emblématiques de ce type d’apprentissage : à partir d’un
nuage de points, l’algorithme doit trouver des amoncellements de points
ou des directions particulières selon lesquelles les points sont alignés.
APPRENTISSAGE NON SUPERVISÉ. Gauche : l’algorithme remarque que les points sont
principalement répartis selon la direction donnée par la flèche rouge. Droite : l’algorithme
remarque que les points sont principalement répartis autour des centres marqués par des croix
rouges.
L’APPRENTISSAGE PAR RENFORCEMENT

Ici, on plonge l’agent dans un environnement avec lequel il interagit. Un
peu comme lorsqu’on dresse un chien, l’agent est récompensé pour un
bon comportement, et puni pour un mauvais comportement. C’est en
fait l’environnement qui fournit les données d’entraînement à
l’algorithme. Ce type d’apprentissage, mettant souvent en jeu des
réseaux de neurones artificiels, a été à l’origine de prouesses dans le
domaine des jeux. Il est en pleine expansion, et sera probablement un
des ingrédients essentiels à l’élaboration d’un robot intelligent.
1.
2.
3.
LES DIFFÉRENTS TYPES D’APPRENTISSAGE. 1 : apprentissage supervisé. 2 : apprentissage non
supervisé. 3 : apprentissage par renforcement.

QUEL EST LE MEILLEUR TYPE
D’APPRENTISSAGE ?
Illustrons ces trois types d’apprentissage par trois différentes manières
d’apprendre l’anglais.
• Apprentissage supervisé : apprendre par cœur les traductions de

mots français (données) en anglais (étiquettes).
• Apprentissage non supervisé : regarder des films en version originale

sous-titrée. On n’a pas accès à la traduction, mais on devine le sens des
mots grâce au contexte visuel.
• Apprentissage par renforcement : s’immerger en plein cœur de

Londres, et apprendre en interagissant avec son environnement. C’est la
manière la plus empirique d’apprendre une langue, mais souvent la plus
efficace !
Actuellement, l’apprentissage supervisé est le plus utilisé, mais il

présente deux défauts. Premièrement, les données doivent être
étiquetées à la main par des humains. Imaginez un peu devoir étiqueter
à la main des millions d’images d’animaux ! Deuxièmement, donner des
étiquettes à l’algorithme lui simplifie grandement la vie. Et les
algorithmes sont des grands paresseux : s’ils trouvent un raccourci pour
répondre correctement sans véritablement comprendre pourquoi, ils
l’emprunteront ! Par exemple, un algorithme à qui l’on présente des
photos de chiens de traîneau et des chihuahuas va choisir la manière la
plus simple de les distinguer : regarder s’il y a de la neige ou de l’herbe à
l’arrière-plan ! Si on lui présente un chien de traîneau sur une pelouse, il
ne faudra pas s’étonner de le voir se tromper.
Ainsi, l’apprentissage supervisé peut s’apparenter à une forme de

bachotage. Pensez à l’élève qui veut apprendre l’anglais simplement en
mémorisant les traductions de mots français : il se retrouvera à parler un
anglais traduit mot à mot du français ! Pour parler un bon anglais, le
mieux est de combiner un peu d’apprentissage supervisé, pour avoir un
large vocabulaire, un peu d’apprentissage non supervisé, pour déceler
les subtilités du langage (syntaxe, expressions idiomatiques) et un peu
d’apprentissage par renforcement, pour gagner en aisance et en repartie.
Il existe deux autres types d’apprentissage pour pallier les défauts de

l’apprentissage supervisé :
• L’apprentissage semi-supervisé, à mi-chemin entre supervisé et non

supervisé : on dispose de certaines données étiquetées et d’autres non
étiquetées. C’est ainsi que, dans les manuels d’anglais, on vous demande
de traduire un texte en vous aidant uniquement pour quelques mots.
• L’apprentissage auto-supervisé : il fait de plus en plus ses preuves, et

incarne le futur du machine learning pour certains. Il consiste à
apprendre de manière supervisée… Mais sans étiquettes. Comment ? En
se fabriquant des étiquettes à partir des données elles-mêmes ! C’est le
principe du fameux texte à trous : « To be or not to … » L’étiquette, ici, est
le mot que l’algorithme doit trouver pour compléter la phrase : be.
Pratique : l’étiquette était contenue dans la phrase ! Ce procédé force
l’algorithme à comprendre le véritable sens de la phrase.
À votre avis, quel mode d’apprentissage utilisent les bébés pour

comprendre le monde qui les entoure ? Si vous avez déjà vu un bébé
s’emparer d’un hochet, vous aurez sûrement une petite idée.
Clairement, ce n’est pas de l’apprentissage supervisé : comme le bébé ne

comprend pas le langage, on ne peut pas lui expliquer ce qu’est un
hochet. Ce qu’on peut faire, c’est l’agiter devant ses yeux : par
l’observation (et donc l’apprentissage non supervisé), il se fera une petite
idée du mode d’emploi.
Mais le véritable apprentissage commence lorsque le bébé s’empare du
hochet et se met à l’examiner. Il ne se contente pas de l’agiter à
nouveau : il l’inspecte sous tous ses angles, le cogne contre la table, le
met dans sa bouche, le jette par terre… Cette attitude s’appelle la
curiosité. À chaque interaction avec l’objet, il découvre par lui-même une
nouvelle étiquette à mémoriser : la conséquence de l’interaction (bruit
amusant contre la table, goût désagréable dans la bouche, rebond sur le
sol). Il est son propre instituteur : c’est de l’apprentissage auto-
supervisé !
*1. Mathématiquement parlant, cela correspond à calculer la dérivée (ou plus exactement le
gradient) de la fonction de perte par rapport aux curseurs. Dans le cas du deep learning, il a
fallu attendre les années 1980 pour avoir une méthode efficace pour faire ce calcul : la
rétropropagation du gradient.
*2. Ce n’est toutefois pas vrai pour les réseaux de neurones artificiels, qui arrivent
miraculeusement à apprendre par cœur toutes les données sans pour autant perdre de vue la
tendance générale. Ce phénomène mal compris, à l’origine du succès du deep learning, est un
sujet de recherche très actif.
CHAPITRE 4
UN JOUR DANS LA VIE

D’UN CONCEPTEUR D’IA
Résoudre un problème de machine learning, c’est un peu

comme concocter une recette ; dans ce chapitre, mettez-vous
dans la peau d’un concepteur d’IA pour comprendre comment
fabriquer un bon algorithme de machine learning.
QUE FAUT-IL POUR METTRE AU POINT

UN ALGORITHME DE MACHINE
LEARNING ?
Pour préparer un bon plat, il faut trois choses : une bonne recette, des
ustensiles appropriés, et des ingrédients de qualité. En machine
learning, c’est pareil (voir figure suivante) :
• L’algorithme : c’est la recette. En cuisine, on innove rarement : soit on

choisit un plat simple et efficace, soit on ouvre un livre de recettes. En
machine learning, c’est pareil. Pour les tâches les plus banales, il y a
quelques algorithmes incontournables. On a vu l’exemple de la
régression linéaire, véritable jambon-beurre du machine learning ;
d’autres algorithmes classiques seront présentés dans le chapitre 5. Pour
les tâches plus exotiques, il faut faire appel à des algorithmes complexes
comme les réseaux de neurones artificiels.
• Les processeurs de calcul : ce sont les ustensiles avec lesquels on

cuisine. Les algorithmes simples, comme la régression linéaire, peuvent
être entraînés sur un simple ordinateur de bureau, tandis que les
algorithmes les plus complexes comme AlphaGo coûtent plusieurs
millions d’euros d’électricité à entraîner.
• Les données : ce sont les ingrédients avec lesquels on cuisine. Là

encore, les algorithmes simples sont bien moins gourmands en données
que les algorithmes complexes : il suffit de quelques exemples pour une
régression linéaire, alors qu’AlphaGo a dû jouer plusieurs millions de
fois contre lui-même.
De ces trois ressources de base, la donnée est la plus convoitée, à tel

point que certains la qualifient de nouvel « or noir ». Ainsi s’explique
pourquoi les entreprises s’arrachent nos données personnelles, et
pourquoi les géants du numérique comme Google exercent un tel
monopole : ce sont les seuls à détenir cette ressource rare en quantité
suffisante.
Pourquoi une telle ruée vers l’or ? Premièrement, parce que la donnée est
le facteur le plus déterminant en termes de performance. Un algorithme
modeste nourri de données abondantes fonctionne généralement mieux
qu’un algorithme puissant en manque de données. Deuxièmement,
parce qu’il est difficile de se procurer des données de qualité en quantité,
comme nous allons le voir. À l’inverse, il est assez facile de se procurer
les derniers algorithmes à la mode grâce à l’essor du open source. Il est
même possible de télécharger des algorithmes pré-entraînés sur des
machines dernier cri, et de les adapter à une nouvelle tâche grâce au
transfer learning, que nous verrons chapitre 6.
Les trois facteurs de l’IA
COMMENT RÉCOLTER DES DONNÉES ?

En cuisine, il faut sélectionner et préparer soigneusement les
ingrédients. Les fruits et légumes doivent être choisis bien mûrs, rincés,
puis découpés selon le format demandé par la recette.
De même, en machine learning, les données doivent être récoltées avec

précaution, nettoyées, puis mises sous une forme compréhensible par
l’algorithme.
1. Récolter les données. Les algorithmes d’apprentissage supervisé les

plus récents ont besoin de plusieurs milliers d’images étiquetées pour
distinguer des chiens et des chats ! Il faut donc récolter toutes ces
données ainsi que leurs étiquettes. Il existe plusieurs solutions :
• utiliser des banques de données publiques ;
• acheter des données, directement auprès des grandes compagnies qui

les détiennent, ou indirectement auprès de compagnies qui en achètent
et en revendent ;
• « augmenter » les données (synthétiser de nouvelles données à partir

de celles dont on dispose) – par exemple, en appliquant une légère
rotation à une des images dont on dispose, on en obtient une nouvelle
aux pixels tous différents ! ;
• recourir au crowdsourcing (payer des sous-traitants pour étiqueter des

images manuellement). Une plateforme d’étiquetage célèbre est
Amazon Mechanical Turk : si vous voulez arrondir (légèrement) vos fins
de mois, vous pouvez vous-même aller étiqueter des images d’animaux !
2. Nettoyer les données. Quelle que soit la méthode de récolte des

données, il subsiste toujours des imperfections : erreurs humaines,
données incomplètes ou même mensongères… Le nettoyage de données
consiste à détecter toutes les anomalies et à les corriger.
3. Sélectionner les caractéristiques d’intérêt. Supposons que pour

chaque exemple de moto vendue, on dispose d’un grand nombre de
caractéristiques : numéro de série, modèle, couleur. Personne ne nous
oblige à prendre toutes ces caractéristiques en compte ; certaines sont
inutiles, d’autres redondantes… La procédure de sélection des variables à
retenir s’appelle le feature engineering, et peut être réalisée
manuellement (il est évident que le numéro de série d’une moto n’est pas
utile pour prédire son prix) ou automatiquement (à l’aide d’algorithmes
de réduction de dimensionnalité comme nous en découvrirons au
chapitre 5, ou grâce au deep learning, que nous verrons au chapitre 6).
4. Formater les données. Il faut bien mettre les données sous une
forme compréhensible par l’algorithme si l’on veut qu’il apprenne
quelque chose ! Par exemple, pour du texte, il faut séparer les mots, puis
représenter ces derniers par des nombres, comme nous le verrons au
chapitre 8.
5. Séparer les données d’entraînement et de test. Maintenant que les

données sont propres, il faut les séparer en deux parties : les données sur
lesquelles l’algorithme s’entraînera, et les données sur lesquelles on le
testera. Généralement, il faut garder le plus gros des données pour
l’entraînement, mais si on n’en laisse pas assez pour le test, celui-ci
risque d’être moins fiable !
Vous avez probablement déjà étiqueté quelques images pour Google

sans vous en rendre compte. Les sites qui vous demandent de remplir
un test CAPTCHA (identifier des voitures, animaux ou personnes)
lorsque vous oubliez votre mot de passe se servent au passage de vous
comme main-d’œuvre gratuite pour enrichir leurs bases de données !
COMMENT FABRIQUER
UN ALGORITHME DE MACHINE
LEARNING ?
Vos données sont prêtes : il est temps de passer à l’élaboration à
proprement parler de la recette. On peut résumer la procédure en quatre
grandes étapes, illustrées plus loin dans un diagramme.
1. Choix des hyperparamètres. On élabore un premier jet de la recette

en choisissant les hyperparamètres, c’est-à-dire les réglages de
l’algorithme : nombre de curseurs, taille des pas que l’on prend pour la
descente de gradient, etc. Pourquoi un nom aussi barbare ? Pour
distinguer les hyperparamètres des paramètres internes de l’algorithme,
les fameux curseurs qui sont appris automatiquement pendant
l’entraînement.
2. Entraînement. Une fois qu’on a une idée de recette en tête, on passe

aux fourneaux ! C’est la phase d’entraînement, généralement la plus
longue : on présente des données à l’algorithme et celui-ci ajuste ses
curseurs.
3. Test. C’est le moment de vérité : on goûte la recette ! Il s’agit de

tester la capacité de l’algorithme à généraliser ses apprentissages : on lui
présente un petit échantillon de données qu’il n’a jamais vues et on teste
ses performances.
4. Mise en service : si l’algorithme fait bien ce qu’on lui demande, c’est

gagné, on peut enfin passer à la dégustation, c’est-à-dire la mise en
service ! Sinon, on recommence à la première étape en essayant d’autres
hyperparamètres.
Étapes de la conception d’un algorithme d’IA
COMMENT ÉVALUER LA QUALITÉ

DE L’ALGORITHME ?
En cuisine, l’étape où l’on goûte présente une grande subjectivité. En
machine learning, c’est souvent pareil ! La fonction de perte est un outil
objectif qui permet d’entraîner l’algorithme. Sa valeur nous indique si
l’algorithme a bien appris les données, mais celle-ci ne nous dit pas
forcément si l’algorithme fait ce que l’on veut ! Lors du test, il est courant
que l’on utilise une métrique de qualité différente de la fonction de
perte.
Ainsi, comment quantifier la performance d’un filtre anti-spam, par

exemple ? Facile, me direz-vous : l’algorithme doit se tromper le moins
possible. Mais ce n’est pas si simple, car ce type d’algorithme peut faire
deux types d’erreurs :
• faux positif : filtrer un mail important ;
• faux négatif : laisser passer un spam.
Clairement, le faux positif est bien plus grave ! La fonction de perte fait
en sorte que l’algorithme se trompe le moins souvent possible, mais ne
nous dit pas s’il est davantage coupable de faux positifs ou de faux
négatifs. Ce dernier pourrait très bien tricher : si 99 % des mails étaient
des spams, il suffirait de filtrer tous les mails pour avoir raison 99 % du
temps !
Comme tous les algorithmes de classification, les filtres anti-spam

calculent la probabilité que le mail soit un spam. Si cette probabilité
dépasse un certain seuil, par exemple 90 %, le mail passe dans la boîte
spam. Pour minimiser le risque d’un faux positif, il faut augmenter ce
seuil à 99 %, de telle sorte que l’algorithme ne filtre que lorsqu’il est sûr à
99 %. Mais en faisant cela, on augmente le taux de faux négatifs :
beaucoup de spams risquent de ne pas être filtrés !
Dans certains cas, c’est l’inverse : pour un algorithme de détection de

cancer, c’est le faux négatif (diagnostiquer un patient cancéreux comme
sain) qui est à éviter à tout prix ! On voit donc que celui qui élabore la
recette a un rôle important à jouer, qui est de trouver un compromis
entre la sensibilité (taux de spams filtrés) et la spécificité (taux de mails
filtrés qui étaient effectivement des spams) de l’algorithme.
Dans d’autres contextes, la part de subjectivité peut être encore plus

grande : imaginez devoir évaluer les performances d’une IA qui écrirait
des poèmes. Ici, il n’y a même pas de notion de vrai ou faux ! On pourrait
demander à des critiques littéraires de noter les poèmes générés, mais
ce serait bien trop coûteux. Face à l’impossibilité de quantifier le beau
mathématiquement, on se contente souvent de demander à l’algorithme
de trouver un compromis entre qualité (générer des poèmes qui ont du
sens) et diversité (éviter le plagiat ou la redondance).
LE CONCEPTEUR PEUT-IL ÊTRE

REMPLACÉ PAR SA PROPRE
MACHINE ?
Ironiquement, le métier de concepteur d’algorithmes de machine
learning est menacé par ces algorithmes eux-mêmes ! En effet, les quatre
étapes de l’élaboration de la recette peuvent en fait être automatisées
par un algorithme indépendant, chargé de trouver lui-même la meilleure
recette.
L’algorithme le plus simple est la recherche par grille, qui consiste à

bêtement essayer des tas de combinaisons d’hyperparamètres, comme
lorsqu’on essaye d’ouvrir un cadenas. Mais c’est une méthode très
chronophage : si on a seulement dix hyperparamètres, et qu’on teste
seulement deux valeurs pour chacun d’eux (ce qui est déjà un cas
optimiste !), il faut déjà entraîner 1 024 algorithmes, parmi lesquels on ne
gardera qu’un seul ! Pourquoi ne pas utiliser… des algorithmes de
machine learning, justement ? C’est du machine learning appliqué au
machine learning : on parle de meta-learning. Apprendre à apprendre, en
somme…
Une des plus belles formes de meta-learning a été découverte en… 1859.
C’est la théorie de l’évolution de Charles Darwin. Oui, ce principe peut
être utilisé en machine learning : on parle d’algorithmes
évolutionnaires. À partir d’un algorithme donné, on crée une population
de nouveaux algorithmes qui ressemblent à l’algorithme original (tout
comme vous ressemblez à vos parents), à quelques modifications
aléatoires près (les mutations génétiques, en biologie). On sélectionne
les algorithmes les plus performants de cette descendance, et ceux-ci
deviennent les nouveaux parents. On recommence ainsi de suite, de
génération en génération : petit à petit, le meilleur algorithme de chaque
génération devient de plus en plus performant.
Finalement, la sélection naturelle, c’est un peu comme la descente de

gradient : on augmente les performances en descendant une montagne
par petits pas. La différence est qu’on a les yeux bandés et qu’on ne voit
pas la pente ; on doit faire des petits pas aléatoires dans toutes les
directions pour savoir dans quelle direction cela descend.
À QUOI RESSEMBLE UN ALGORITHME

DE MACHINE LEARNING ?
Cette section s’adresse aux courageux qui voudraient mettre leurs

mains dans le cambouis et fabriquer leur premier algorithme de
machine learning, ou tout simplement aux curieux qui voudraient voir à
quoi ressemble un bout de code. Si cela ne vous intéresse pas, vous
pouvez passer au chapitre suivant.
Le machine learning devient de plus en plus simple à utiliser : c’est de

nos jours presque un jeu d’enfant. Pour les débutants, je recommande le
langage informatique Python, de loin le plus répandu. Celui-ci est muni
d’une excellente collection d’algorithmes de machine learning, nommée
SKLearn.
Si vous avez lu attentivement jusqu’ici, la pratique devrait vous paraître

simple. Elle obéit toujours au même schéma :
• Importer les données.
• Importer un algorithme à partir de SKLearn.
• Entraîner l’algorithme sur les données d’entraînement.
• Tester l’algorithme sur les données de test.

Ci-après, un exemple qui montre à quoi ressemblent ces étapes sous la
forme d’un code écrit en Python. Même si vous n’avez jamais fait
d’algorithmique, vous arriverez sûrement à deviner ce que fait chaque
ligne. Si vous voulez en savoir davantage, Internet regorge de tutoriels
pour apprendre à utiliser Python et ses librairies.
import sklearn
import pandas
# 1. Importer les données depuis des fichiers Excel
data_train = pandas.read_excel(«train.xls»)
data_test = pandas.read_excel(«test.xls»)
x_train, y_train = data_train[:, 0], data_train[:, 1]
x_test, y_test = data_test [:, 0], data_test [:, 1]
# 2. Importer l’algorithme
from sklearn.linear_model import Linear_Regression
algorithme = Linear_Regression()
#3. Entraîner l’algorithme
algorithme.fit(x_train, y_train)
# 4. Tester l’algorithme
y_predict = algorithme.predict(x_test)
perte = (y_predict - y_test) * (y_predict - y_test)

CHAPITRE 5
QUELQUES
APPLICATIONS CÉLÈBRES
Maintenant que vous êtes familiarisé avec les rouages internes
des algorithmes d’apprentissage, vous êtes prêt à découvrir
leurs innombrables applications. Vous brûlez certainement
d’impatience de vous plonger dans les méandres du deep
learning, omniprésent dans les médias, mais gardez à l’esprit
que son usage est surtout réservé aux tâches complexes.
Souvenez-vous du rasoir d’Occam ! Pour les tâches
relativement simples, inutile de prendre un marteau pour
écraser une mouche ; il vaut mieux choisir un bon vieil
algorithme de machine learning « classique ». Voici donc
quelques incontournables.
LA RÉGRÉSSION LINÉAIRE : COMMENT

SONT DÉTERMINÉS LES TAUX
DE PRÊT ?
Au chapitre 3, nous avons découvert le cas le plus simple de régression
linéaire : on voulait prédire le prix d’une moto en fonction d’une seule
variable, son âge. Mais une kyrielle d’autres variables peuvent influencer
le prix d’une moto : couleur, kilométrage, cylindrée…
Heureusement, il est possible de prendre en compte ces autres variables,

de la même manière que l’âge de la moto. Il suffit d’apprendre pour
chacune un coefficient qui détermine son influence sur le prix ; chaque
coefficient correspondant à un curseur à ajuster lors de l’entraînement.
Si la variable affecte peu le prix (couleur de la moto), le coefficient sera
proche de zéro ; si la variable a tendance à faire augmenter le prix
(cylindrée), le coefficient sera positif ; inversement, si la variable a
tendance à faire diminuer le prix (kilométrage), le coefficient sera
négatif.
Ce type d’algorithme, bien qu’extrêmement basique, est probablement

un des plus répandus dans les applications industrielles. C’est souvent
ainsi que les banques estiment le risque associé à un prêt en fonction du
profil du client, et que les commerciaux fixent le prix d’un produit en
fonction de la demande du marché. Le grand avantage de la régression
linéaire est son explicabilité : le coefficient de chaque variable traduit
directement son effet sur la variable qui nous intéresse. On comprend
donc parfaitement les prédictions de l’algorithme.
L’ANALYSE DE SÉRIES TEMPORELLES :

COMMENT PRÉDIRE LE FUTUR ?
Une série temporelle est tout simplement l’évolution dans le temps
d’une quantité comme le cours de la Bourse, le prix de l’essence ou
encore le volume des ventes d’un smartphone. Posséder une boule de
cristal qui prédirait la quantité de ventes d’un bien est le rêve de tout
commerçant, c’est pourquoi l’analyse des séries temporelles est un
domaine particulièrement important.
Dans sa forme la plus simple, l’analyse de séries temporelles ressemble

un peu à la régression linéaire, sauf qu’apprendre la tendance des
données (la pente de la droite moyenne) ne suffit plus : on doit aussi
comprendre leur variabilité autour de cette tendance. Par exemple, les
données peuvent présenter une tendance saisonnière : dans la figure
suivante, on voit que chaque année, le terme fitness est beaucoup plus
recherché en janvier qu’en novembre sur Google (preuve que les
résolutions du Nouvel An sont de courte durée)…
L’équivalent de la régression linéaire pour les séries temporelles

s’appelle le modèle ARIMA. De manière générale, il s’agit de
comprendre l’autocorrélation de la quantité d’intérêt, c’est-à-dire
combien sa valeur à un instant donné est corrélée à ses valeurs aux
instants précédents. Ici, il y a une forte autocorrélation sur une période
d’un an, car le motif se répète à l’identique d’une année sur l’autre.
Évolution du nombre de recherches du mot-clé fitness entre le 1er janvier 2005 et le
1er janvier 2010 (données récoltées sur le site Google Trends). Le but de l’analyse de série
temporelle est de prévoir le futur (en pointillés) à partir du passé (en trait plein). Au-delà de la
tendance croissante, représentée par la droite rouge, on voit une forte tendance saisonnière :
chaque année, il y a un pic de popularité de ce mot-clé en janvier.
LES MÉTHODES ENSEMBLISTES :

COMMENT RÉALISER UN DIAGNOSTIC
MÉDICAL ?
Comment choisit-on le mode de transport à emprunter pour se rendre
quelque part à Paris ? On se pose une série de questions (Quelle est la
météo ? Quelle distance jusqu’à la destination ?…), qui mène à une
décision. Ce processus peut être représenté par un arbre décisionnel,
comme dans la figure suivante.
Arbre de décision prenant la forme d’une série de questions à se poser pour choisir un mode de
transport.
Les arbres décisionnels sont utilisés, entre autres, en médecine pour

établir un diagnostic médical à partir d’une série de symptômes. Mais où
est l’apprentissage là-dedans ? Où sont ces fameux curseurs ?
Remarquez que dans la figure, les questions sont posées dans un ordre
précis, et consistent à comparer une valeur à un seuil, indiqué en rouge.
Par exemple, s’il fait plus froid qu’une certaine température, on aura
plutôt tendance à emprunter la voiture ou les transports en commun !
Le seuil de température est un curseur que nous réglons chacun selon

notre frilosité. De même, l’ordre des questions dépend de notre ordre des
priorités : certains prennent en compte d’abord la météo, puis la distance
du lieu de rendez-vous, d’autres font l’inverse.
En machine learning, l’algorithme des forêts aléatoires fait usage de ces

arbres décisionnels. Pourquoi ce nom poétique ?
• Aléatoire : initialement, l’ordre et les seuils des questions sont
aléatoires. Ce sont les curseurs que l’algorithme ajuste lors de
l’entraînement.
• Forêt : l’algorithme utilise en fait plusieurs arbres entraînés

séparément et opte pour la décision prise par la majorité des arbres.
C’est ce qu’on appelle une méthode ensembliste.
Les méthodes ensemblistes peuvent s’appliquer dans de nombreuses

autres situations. Leur devise : « L’union fait la force. » Comme le
remarque le journaliste James Surowiecki dans La Sagesse des foules 3,
leur puissance redoutable s’illustre dans le célèbre jeu Qui veut gagner
des millions : l’appel à un expert donne la bonne réponse environ deux
fois sur trois, contre neuf fois sur dix pour l’appel au public. Pourquoi ?
Parce que les votes aléatoires des spectateurs qui n’ont aucune idée de la
bonne réponse s’équilibrent, et les rares personnes qui connaissent la
bonne réponse suffisent le plus souvent à faire pencher la balance !
Une condition est cependant nécessaire pour tirer profit de la sagesse

d’une foule : les individus de la foule ne doivent pas reproduire les
mêmes erreurs. Cela peut arriver si la foule est influencée par une même
idée reçue : nous avons tous appris que les taureaux sont attirés par le
rouge, alors que ces derniers ne voient pas les couleurs.
Dans le cas des forêts aléatoires, on entraîne les arbres sur des jeux de
données différents pour que leurs prédictions soient aussi diversifiées
que possible. Mais on peut même aller plus loin en recourant aux
prédictions d’algorithmes complètement différents, par exemple
mélanger des réseaux de neurones et des arbres décisionnels, pour que
les forces des uns compensent les faiblesses des autres.
É É
L’INFÉRENCE BAYÉSIENNE :
COMMENT DÉTECTER LES SPAMS ?
Le théorème de Bayes est fondamental en probabilités. Il nous dit
comment la probabilité d’un événement est modifiée lorsqu’on reçoit
une nouvelle information. Exemple : vous voulez savoir si un individu
pioché au hasard dans le monde est écossais. A priori, la probabilité est
faible puisque l’Écosse représente moins de 0,1 % de la population
mondiale. Mais vous disposez d’une information : ses cheveux sont roux.
Or, l’Écosse détient le record mondial de rousseur, avec 12 % de la
population, contre 2 % dans le reste du monde. Le théorème de Bayes
vous dit simplement qu’avec cette information, la probabilité que
l’individu soit écossais augmente : elle est multipliée par 6 (12/2 = 6).
Comment utiliser ce théorème pour détecter des spams dans votre boîte
mail ? Rien de plus simple. Vous voulez connaître la probabilité qu’un
mail soit un spam. A priori, la probabilité est faible puisqu’en moyenne
seuls 10 % des mails que vous recevez sont des spams. Mais vous
disposez d’une information : le contenu du mail. L’inférence bayésienne
naïve considère ce contenu comme une série d’informations
successives, indépendantes les unes des autres – ce qui est loin d’être le
cas, mais simplifie grandement les calculs, d’où le qualificatif « naïf ».
Commençons par le premier mot : « Félicitations ! » Comme ce mot est
particulièrement fréquent dans les spams (« Félicitations ! Vous avez
gagné un bon d’achat »), la probabilité que le mail soit un spam
augmente. Et ainsi de suite : mot après mot, on actualise la probabilité
que le mail soit un spam.
É
LA RÉDUCTION
DE DIMENSIONNALITÉ : COMMENT
INVESTIR EN BOURSE ?
La finance est, au premier abord, un domaine très complexe, où un grand
nombre de variables évoluent en s’influençant les unes les autres.
Comment arriver à voir plus clair dans ce chaos ? Il est monnaie
courante, en analyse de données, de vouloir simplifier le problème en
éliminant les variables inutiles. Cela s’appelle la réduction de
dimensionnalité. Comment s’y prendre ?
Il suffit de remarquer que certaines variables présentent un certain

degré de redondance. En finance, les variables en jeu sont souvent très
corrélées : le cours de différentes actions a tendance à évoluer de
concert, au gré de différents événements conjoncturels. Imaginons que
deux actions soient parfaitement corrélées, de telle sorte que l’on peut
déduire le prix de l’une en connaissant le prix de l’autre. Alors, il est
facile de voir que l’on peut se débarrasser de l’une des deux sans perdre
d’information.
La méthode de réduction de dimensionnalité la plus répandue est

l’analyse en composantes principales, souvent appelée PCA. Elle
consiste à éliminer les corrélations pour réduire les données à leur
substantifique moelle, incarnée par ces fameuses composantes
principales décorrélées. En fait, vous avez déjà rencontré la PCA sans le
savoir au cours du chapitre 3 : c’était le premier exemple d’algorithme
d’apprentissage non supervisé.
En effet, en représentant l’évolution des variables dans un graphique, la

PCA consiste à trouver des directions selon lesquelles les points sont
alignés, comme l’illustre la figure suivante. Une fois la direction trouvée
(flèche rouge), on peut éliminer une des deux variables en ne gardant
que la projection des points selon cette direction.
Notons néanmoins que la PCA ne fonctionne que lorsque la corrélation

entre les variables est linéaire, c’est-à-dire lorsque ces dernières sont
proportionnelles. Si on veut détecter des corrélations non linéaires, il
faut utiliser des algorithmes de réduction de dimensionnalité plus
complexes comme les auto-encodeurs.
Évolution de l’action A et de l’action B au cours de la semaine. 1) Les actions sont corrélées ;
lorsque A gagne 5 % de valeur, B aussi, et inversement, lorsque A perd 5 %, B aussi. On peut
éliminer une des deux variables en projetant les points sur la direction marquée par la ligne
rouge, qui a été trouvée par PCA. 2) Les actions sont anti-corrélées ; lorsque A gagne 5 % de
valeur, B en perd 5 %. 3) Les actions ne sont pas corrélées ; on ne peut pas déduire l’évolution
de B de l’évolution de A. 4) Les actions sont corrélées de manière non linéaire ; on ne peut pas
capturer cette corrélation avec la PCA.
La réduction de dimensionnalité est extrêmement utile en finance, dont

un des principes fondamentaux est d’investir dans des stocks
maximalement décorrélés. C’est la théorie moderne du portefeuille,
élaborée dans les années 1950 par l’économiste américain Harry
Markowitz : il ne faut pas mettre tous ses œufs dans le même panier ! Si
on investissait dans deux stocks corrélées, la baisse du premier
entraînerait la baisse du second. C’est donc très risqué ! En diversifiant
les investissements, on réduit ce risque.
LES SYSTÈMES
DE RECOMMANDATION : COMMENT
NETFLIX CERNE-T-IL VOS GOÛTS ?
Pour suggérer des films susceptibles de vous plaire, Netflix doit
apprendre vos goûts au moyen d’un système de recommandation. Pour
cela, le géant du streaming essaye de trouver des utilisateurs ayant les
mêmes goûts que vous. Cette méthode se résume dans une formule
récurrente : « Les utilisateurs qui ont aimé X ont également aimé Y. »
L’idée est simple : séparer les utilisateurs en groupes, correspondant à

des « communautés » de goûts. Par exemple, le groupe numéro 290
contient les utilisateurs appréciant particulièrement Black Mirror, Lost et
Groundhog Day. Pour déterminer ces groupes, Netflix utilise des
algorithmes de clustering (cluster est le mot anglais pour « amas »),
comme l’illustre la figure suivante. Celle-ci vous rappelle peut-être
quelque chose, car le clustering correspond au deuxième exemple
d’algorithme non supervisé que nous avons rencontré dans le
chapitre 3 !
Netflix repère des communautés de goûts, signalées ici par quatre amas de couleurs différentes.
Chaque point représente les goûts d’un utilisateur, et les croix représentent le centre d’un amas.
Le rôle d’un algorithme de clustering est de trouver ces centres. Ici, vous seriez identifié comme
un amateur de films d’aventures. Bien entendu, en réalité, il y a bien plus que quatre amas, et
ceux-ci ne représentent pas des catégories aussi simples.
Le principe d’un algorithme de clustering est de détecter des amas de
points. Un des algorithmes les plus célèbres est l’algorithme k-means *1.
Prenons un cas intuitif pour illustrer son principe de fonctionnement.
Vous êtes le propriétaire d’une chaîne de pizzerias à succès et voulez
étendre votre business en ouvrant deux nouvelles enseignes, A et B.
Pour atteindre un maximum de clientèle, vous voulez trouver les
emplacements les plus stratégiques, à partir des données géographiques
des habitations. Que faut-il faire ? Détecter deux amas, et placer les
enseignes au centre de chacun des amas !
Vous dites donc à k-means de chercher deux amas parmi les habitations.
Avant de regarder les données, l’algorithme ne sait rien et place les
enseignes au hasard. Puis il actualise leurs positions par étapes
successives :
1. Il fait le tour des habitations, et les sépare en deux groupes : celles

qui sont plus proches de A (groupe A) et celles qui sont plus proches
de B (groupe B).
2. Il déplace chaque enseigne pour qu’elle soit au centre de son groupe,

de manière à réduire le temps de trajet moyen depuis les habitations.
3. Puis il reprend à l’étape 1 : détection des nouveaux groupes (les

enseignes ont bougé), recentrage des enseignes, et ainsi de suite…
Jusqu’à ce que les enseignes ne bougent plus : c’est alors que
l’algorithme a trouvé les positions idéales.
*1. Le nom k-means est constitué de k, qui désigne le nombre d’amas recherchés (ici k = 2), et
du mot anglais mean, qui désigne le centre des amas.
CHAPITRE 6
COMPRENDRE LE DEEP
LEARNING
Nous y voilà enfin ! Le deep learning est un sujet fascinant, et
je vous félicite d’avoir lu jusqu’ici ; mais c’est également ici
que les choses commencent à se corser. Car le deep learning
est aussi puissant que mystérieux, et tout comme notre
cerveau, il est loin de nous avoir livré tous ses secrets. On
qualifie d’ailleurs souvent les réseaux de neurones artificiels
de « boîtes noires ». Qu’à cela ne tienne : ouvrons ces boîtes et
examinons leur contenu.
COMMENT FONCTIONNE
LE PERCEPTRON ?
En parcourant l’histoire de l’IA dans le chapitre 2, nous avons mentionné
l’invention du perceptron comme étant le premier pas vers le deep
learning. Le perceptron est le modèle mathématique du neurone, brique
élémentaire des réseaux de neurones : comprendre son fonctionnement
est essentiel pour comprendre le deep learning.
Prenons un cas très concret : la détection de mélanome. Vous voulez
déterminer si la tache qui est apparue récemment sur votre peau est un
simple grain de beauté, ou si elle est de nature cancéreuse. Les
dermatologues recommandent généralement la règle ABCDE pour
l’auto-examen. Celle-ci consiste à relever cinq caractéristiques du grain
de beauté : son Asymétrie, l’irrégularité de ses Bords, l’inhomogénéité de
sa Couleur, son Diamètre, et la vitesse de son Évolution. Plus ces
caractéristiques sont marquées, plus le grain de beauté a de risques
d’être cancéreux.
Pour décider si le grain de beauté est bénin ou malin, on peut utiliser un

perceptron. Celui-ci fonctionne en fait presque comme la régression
linéaire, qui était notre tout premier exemple d’algorithme
d’apprentissage : il affecte à chaque caractéristique un coefficient qui
reflète son importance (voir figure suivante). La différence est qu’ici, on
veut faire de la classification (prédire une catégorie), et non de la
régression (prédire une valeur). Dans le cas de la régression, la variable
de sortie était un prix, qui devait s’approcher au maximum du prix réel.
Ici, la variable de sortie est un score, qui doit être positif pour les grains
de beauté malins et négatif pour les grains de beauté bénins. Si le score
est proche de zéro, c’est que le perceptron hésite !
Perceptron appliqué à la détection d’un cancer de la peau
POURQUOI ET COMMENT ALLER AU-

DELÀ DU PERCEPTRON ?
Vous avez déjà vu un exemple de perceptron dans le chapitre 3.
Souvenez-vous de l’algorithme qui essayait de séparer les croix vertes et
bleues. Les objets des deux catégories étaient si bien rangés que
l’algorithme pouvait les séparer en traçant une frontière droite : les
catégories étaient linéairement séparables.
C’est exactement ce que fait le perceptron pour les grains de beauté. Il se

les représente comme des points dans l’espace à l’aide des
caractéristiques ABCDE, et essaie de séparer les grains de beauté bénins
et malins à l’aide d’une frontière droite.
Mais le perceptron souffre de deux grands défauts :
• Principe de maximisation de marge : dans le cas de données

linéairement séparables, il existe souvent plusieurs manières de les
séparer, mais le perceptron ne sait pas comment choisir la meilleure !
Pourtant, c’est assez intuitif. Si je vous demandais de tracer la frontière
dans la figure suivante (image de gauche), vous opteriez sûrement
davantage pour la droite en rouge que pour celle en gris. Pourquoi ?
Parce qu’elle maximise la marge (zone rouge) vis-à-vis des points les
plus ambigus (les plus proches de la frontière).
• Cas de données non linéairement séparables : le cas de données

linéairement séparables est un cas idéal qui arrive peu en pratique.
Souvent, la frontière n’est pas linéaire (image du milieu), voire carrément
indiscernable (image de droite) ! Dans ce cas, le perceptron ne
parviendra pas à séparer les catégories.
Gauche : données linéairement séparables, pour lesquelles il existe plusieurs séparatrices

possibles. Alors que le perceptron sépare les données selon la frontière grise, la machine à
support de vecteur préfère la frontière rouge, qui maximise la marge (zone rouge) vis-à-vis des
données les plus ambiguës. Centre : données non linéairement séparables : la frontière est
courbée. Droite : frontière indiscernable.
Heureusement, il existe des solutions pour contourner les problèmes

que rencontre le perceptron. C’est justement pour satisfaire le principe
de maximisation de marge que fut inventé un des algorithmes de
machine learning les plus célèbres : la machine à support de vecteur.
Quant au cas de données non linéairement séparables, on peut faire
appel à la méthode des plus proches voisins. Elle consiste à sonder
l’entourage de la croix dont on veut connaître la couleur : si la plupart de
ses croix voisines sont bleues, alors elle sera déclarée bleue, sinon elle
sera déclarée verte. Une variante plus sophistiquée est la méthode des
noyaux, qui sonde non seulement les voisins mais également tout le
reste des croix, en accordant une importance d’autant plus faible que les
croix sont éloignées.
Les machines à support de vecteur et la méthode des noyaux

contribuèrent en grande partie à l’essor du machine learning face aux
algorithmes symboliques. Mais pour faire face à des situations aussi
complexes que l’image de droite de la figure précédente, les réseaux de
neurones artificiels sont devenus incontournables de nos jours.
COMMENT FONCTIONNENT
LES RÉSEAUX DE NEURONES
ARTIFICIELS ?
On parle de deep learning, c’est-à-dire d’apprentissage « profond », parce
que les réseaux de neurones artificiels sont constitués de couches de
neurones en cascade. Chaque neurone (c’est-à-dire chaque perceptron)
d’une couche fait la somme des informations qu’il reçoit des neurones de
la couche précédente et transmet aux neurones de la couche suivante,
tout cela grâce aux synapses, qui sont les curseurs (souvent appelés
« poids » dans ce contexte) à ajuster lors de l’entraînement. Dans les
réseaux de neurones les plus puissants, on utilise parfois plusieurs
centaines de couches successives !
Mais ce n’est pas tout : un ingrédient magique permet aux réseaux de
neurones artificiels de sortir du monde linéaire si limité des perceptrons.
Entre chaque couche, on applique une fonction d’activation, sorte de
déformation qui a le bon goût d’introduire de la non-linéarité (de
« tordre » la frontière, en quelque sorte). Le terme « activation » vient de
la neuroscience, car ce principe est très proche de ce qui se passe dans
notre cerveau.
Nos neurones fonctionnent également de manière non linéaire : ils ne

transmettent pas un signal proportionnel aux signaux qu’ils reçoivent.
Ils fonctionnent plutôt selon un principe de « tout ou rien », émettant un
signal uniquement lorsque la somme des signaux qu’ils reçoivent
dépasse un certain seuil, dit potentiel d’activation.
RÉSEAU DE NEURONES ARTIFICIEL. Les pixels de l’image d’entrée sont analysés par une première
couche de neurones, qui transmet l’information à une deuxième couche, puis à une troisième.
Ces trois premières couches extraient les informations importantes de l’image pour les
transmettre à la dernière couche, dite décisionnelle.
D’OÙ VIENT LA PUISSANCE DU DEEP

LEARNING ?
Le grand avantage des réseaux de neurones artificiels est qu’ils
apprennent eux-mêmes à extraire les informations pertinentes des
données. Jusqu’à leur invention, l’IA consistait principalement à
sélectionner manuellement ces informations puis à les fournir à
l’algorithme, une pratique rébarbative connue sous le nom de feature
engineering.
Reprenons le cas de la détection de mélanome. Avant l’ère du deep

learning, on fournissait à l’algorithme les caractéristiques ABCDE du
grain de beauté. Mais avec le deep learning, c’est bien plus simple : on
fournit directement l’image du grain de beauté au réseau de neurones,
qui s’occupe à notre place de trouver les caractéristiques les plus
pertinentes. En plus de faire gagner du temps et d’épargner l’effort, cela
évite de perdre de l’information : en réduisant l’image du grain de beauté
à quelques caractéristiques, on prend le risque de passer à côté
d’informations dont on ignorait l’importance !
L’extraction de caractéristiques se fait par étapes successives. La

première couche s’occupe d’extraire des caractéristiques grossières,
comme les contours du grain de beauté. La deuxième s’occupe d’extraire
des caractéristiques un peu plus subtiles, comme la forme et la texture
du grain de beauté. Et ainsi de suite : de couche en couche, on extrait des
informations de plus en plus abstraites et complexes (et de moins en
moins compréhensibles par l’être humain…). Cette méthode d’extraction
hiérarchique est naturelle, car nous vivons dans un monde
compositionnel : tout objet est constitué de sous-parties, elles-mêmes
constituées de sous-parties… Enfin, la dernière couche, qui n’est rien
d’autre qu’un perceptron, s’occupe d’utiliser les informations extraites
pour trancher entre grains de beauté bénins et malins.
En reprenant l’image des croix vertes et bleues, les couches

extractrices des réseaux de neurones « rangent » les objets de manière
que le perceptron final, qui joue le rôle de couche décisionnelle, puisse
les séparer en traçant un simple trait. Autrement dit, les couches
extractrices permettent de passer d’un grand nombre de caractéristiques
peu pertinentes (pixels de l’image), pour lesquelles les données sont non
linéairement séparables, à un petit nombre de caractéristiques très
pertinentes, qui peuvent être séparées avec un simple perceptron (voir
figure suivante).
Illustration du principe d’extraction de caractéristiques pertinentes dans les réseaux de neurones

artificiels. En se créant sa propre représentation des données, les couches extractrices du réseau
de neurones artificiel de la figure précédente « rangent » les croix vertes et bleues de manière à
les rendre linéairement séparables.
LE TRANSFER LEARNING : COMMENT

ADAPTER UN RÉSEAU DE NEURONES
À UNE NOUVELLE TÂCHE ?
L’autre grand avantage des réseaux de neurones artificiels réside dans
leur plasticité, analogue à celle de notre cerveau. Sorte de méthode de
reconversion professionnelle pour algorithmes, le transfer learning
permet aux algorithmes auparavant entraînés sur une tâche donnée de
se conformer à une nouvelle tâche, en passant de la reconnaissance
faciale à la détection de mélanome par exemple. Comment est-ce
possible ?
Souvenez-vous que les premières couches des réseaux de neurones
extraient des informations pour permettre aux dernières couches de
prendre une décision. Au niveau des premières couches, l’extraction
d’informations est, en fait, une tâche assez universelle qui s’exécute plus
ou moins de la même manière pour tous les types d’images :
l’algorithme de reconnaissance faciale comme celui de détection de
mélanome commenceront tous deux par étudier les contours, puis les
textures… Mais, en allant vers les couches profondes, les caractéristiques
extraites deviennent de plus en plus spécifiques à la tâche en question.
Les dernières couches de l’algorithme de reconnaissance faciale
étudieront les traits du visage, tandis que l’algorithme de détection de
mélanome s’attardera sur les caractéristiques ABCDE. Ainsi, en
modifiant uniquement les dernières couches, on peut adapter
l’algorithme à une nouvelle tâche.
C’est très pratique, car entraîner uniquement les dernières couches

demande bien moins de calculs ! Il se trouve que pour de nombreuses
tâches classiques comme la reconnaissance d’image ou de texte, il est
possible de télécharger des réseaux de neurones généralistes et
performants, pré-entraînés sur des quantités de données titanesques
(l’intégralité de l’encyclopédie Wikipédia par exemple !) et disponibles
en open source. Il suffit alors de réentraîner les dernières couches sur les
données souhaitées pour obtenir d’excellents résultats.
CHAPITRE 7
DEEP LEARNING
ET IMAGES
En 1989, les premiers réseaux de neurones de Yann Le Cun
parvenaient tout juste à reconnaître des chiffres écrits assez
lisiblement à la main. Trente ans plus tard, les ordinateurs
repoussent les limites humaines dans la plupart des épreuves
de reconnaissance visuelle et commencent à être utilisés pour
conduire des voitures. Comment le deep learning a-t-il pu
permettre une telle explosion ? Réponse dans ce chapitre.
Attention, ces algorithmes vont vous en mettre plein les
yeux…
LES RÉSEAUX CONVOLUTIFS :

COMMENT VOTRE SMARTPHONE
VOUS RECONNAÎT-IL ?
Imaginez : vous êtes à la place de votre pauvre ordinateur, à qui vous
présentez une photographie de vos dernières vacances à la montagne.
Quel charabia ! Pour lui, ce n’est rien d’autre qu’une série interminable
de zéros et de uns, qui représentent les couleurs des pixels.
Comment arriver à discerner quoi que ce soit dans ce désordre ? L’idée

est d’exploiter la structure spatiale des images, en regardant ce qu’il se
passe à l’échelle locale : deux pixels proches sont corrélés. Si on
sélectionne un petit groupe de pixels au niveau du ciel, ils seront tous
bleus. Si on le sélectionne au niveau de la montagne enneigée, les pixels
seront tous blancs. Mais si on le sélectionne à la frontière entre ciel et
neige, on observera un contraste entre les deux couleurs.
C’est ce principe d’extraction locale qu’utilisent les réseaux convolutifs.

Ils tirent leur nom de la convolution, opération mathématique qui
consiste à scruter par parcelles. Chaque parcelle est analysée par des
filtres convolutifs, semblables aux filtres que l’on place devant les
projecteurs d’une salle de concert. Chaque filtre, qui parcourt l’image
entière, a une fonction particulière, apprise lors de l’entraînement. Par
exemple, les filtres bleus permettront de détecter le ciel ; les filtres
blancs, la neige ; les filtres mi-bleus mi-blancs détecteront les interfaces
ciel-neige (voir figure suivante).
Principe d’une convolution. Le filtre bleu détecte le ciel, le filtre blanc détecte la neige, le filtre
mi-bleu mi-blanc détecte les interfaces ciel-neige.
Les réseaux convolutifs permettent à l’algorithme d’extraire de manière

autonome les caractéristiques de l’image. Leur fonctionnement est
d’inspiration biologique, car c’est ainsi que fonctionnent les réseaux
neuronaux du cortex visuel, région du cerveau associée à la vision.
Pour vous reconnaître parmi des milliards d’autres individus, votre

téléphone dernier cri utilise ces réseaux convolutifs. Les premières
couches utilisent les convolutions pour extraire les caractéristiques
distinctives de votre visage (formes, textures). Les dernières couches
utilisent les informations extraites pour vérifier que ce n’est pas votre
petit frère qui essaye sournoisement de déverrouiller votre téléphone.
Imaginons que vous ayez des sourcils particulièrement épais. Les

premières couches vont étudier avec beaucoup de soin la texture de vos
sourcils, tandis que les dernières couches vont accorder un fort poids à
ces informations, puisque c’est une caractéristique distinctive de votre
visage. Notons que pour pouvoir vous reconnaître correctement,
l’algorithme doit s’entraîner sur un grand nombre d’images de votre
visage, c’est pourquoi votre téléphone analyse au préalable votre visage
sous tous ses angles…
LA GÉNÉRATION D’IMAGE : COMMENT

INVENTER DE NOUVEAUX VISAGES ?
Les algorithmes génératifs consistent à synthétiser des données
nouvelles, semblables à celles sur lesquelles l’algorithme a été entraîné.
Présentez-leur des milliers d’images de visages, et ils pourront vous tirer
un portrait ultra-réaliste de personnes n’ayant jamais existé : voyez par
vous-même ci-dessous.
Ces quatre personnes n’ont jamais existé ! Elles sont tirées tout droit de l’imagination du
générateur d’images du site… thispersondoesnotexist.com. Grinçant…
Il existe deux grands types d’algorithmes génératifs : les auto-
encodeurs variationnels, plus connus sous leur acronyme anglais de
VAE, et les réseaux antagonistes génératifs, connus sous le nom de
GAN.
Comme leur nom l’indique, les GAN sont constitués de deux réseaux de
neurones en compétition l’un contre l’autre : le générateur et le
discriminateur.
• Le générateur est un faussaire : il crée des images en essayant de les

rendre les plus réalistes possible pour berner le discriminateur.
• Le discriminateur est un critique d’art : il doit détecter si l’image qu’on

lui présente est authentique ou a été créée par le générateur.
Au fil de ce petit jeu, les deux parties s’améliorent mutuellement et les

images synthétiques sont de plus en plus difficiles à reconnaître. Si les
GAN sont prédominants dans la génération d’image, leur entraînement
est redoutablement difficile, car il s’agit de trouver un équilibre subtil
entre ces deux adversaires pour éviter que l’un d’eux ne l’emporte trop
facilement. À vaincre sans péril, on ne triomphe pas !
Tout comme les GAN, les VAE mettent en jeu deux réseaux de
neurones, mais cette fois, les deux sont en coopération :
• L’encodeur apprend à réduire un visage à une sorte de portrait-robot.

Celui-ci est décrit par quelques caractéristiques (couleur des yeux, forme
du visage, taille du nez…) choisies par l’algorithme.
• Le décodeur reconstruit le visage à partir du portrait-robot. Pour que

cette opération soit possible, les caractéristiques données par l’encodeur
doivent être suffisamment distinctives.
Les VAE ont tendance à générer des images floues, et sont davantage
utilisés pour la génération de texte. Mais leur système d’extraction de
caractéristiques peut s’avérer très intéressant dans des domaines tels
que le deep fake.
ALGORITHMES GÉNÉRATIFS. Haut : réseaux antagonistes génératifs (GAN). Bas : auto-encodeur

variationnel (VAE).
LE DEEP FAKE : COMMENT
REMPLACER UN VISAGE
PAR UN AUTRE ?
Le deep fake consiste à falsifier le visage ou la voix d’une personne, par
exemple pour la rendre coupable d’actions ou de paroles qui ne sont pas
les siennes. C’est une des applications les moins louables (on y
reviendra plus tard) des algorithmes génératifs. Pour l’instant, regardons
ce qui se cache sous le capot.
Le deep fake utilise les VAE d’une manière un peu particulière. Pour
apposer le visage de A sur une photographie de B, il y a une subtilité : il
faut utiliser un décodeur entraîné uniquement sur des photos de A. C’est
en quelque sorte le portraitiste attitré de A : précisez la position et
l’expression du visage désirées, et il vous dessinera A en respectant ces
indications. Pour réaliser un deep fake, il suffit d’extraire ces indications
de la photographie de B grâce à un encodeur et de les donner au
décodeur !
De tels canulars ont déjà ciblé de nombreuses personnalités, telles que

Barack Obama 4, représenté en train d’insulter son prédécesseur, ou
encore Mark Zuckerberg 5, paraissant confesser une utilisation abusive
des données par son réseau social. La plus impressionnante au jour où
est écrit ce livre est probablement celle de Jim Carrey remplaçant Jack
Nicholson dans le célèbre film de Stanley Kubrick The Shining !
DEEP FAKE. Droite : image originale de Jack Nicholson dans The Shining. Gauche : visage
remplacé par celui de Jim Carrey.
LE TRANSFERT DE STYLE :
COMMENT UNE IA PEUT-ELLE IMITER
LE STYLE DE VAN GOGH ?
Le transfert de style consiste à peindre un tableau dans le style artistique
d’un autre tableau. C’est, d’ailleurs, une superbe illustration de la
mécanique interne des réseaux convolutifs.
Comme vous l’avez compris, les filtres convolutifs sont particulièrement

doués pour détecter des caractéristiques abstraites : ils peuvent
notamment déceler les textures, les directions et formes des coups de
pinceau, et d’autres éléments qui font le style d’un peintre ou d’un
mouvement artistique.
La proximité en termes de contenu s’évalue par la similitude des pixels,

alors que la proximité en termes de style peut se déduire de ce qui a été
détecté par les filtres convolutifs. Pour obtenir une peinture C qui aurait
le style de A et le contenu de B, il suffit de minimiser simultanément la
différence de style entre A et C et la différence de contenu entre B et C à
l’aide d’une fonction de perte appropriée. Ci-dessous, un exemple
bluffant du transfert du style de différents peintres sur La Joconde 6.
TRANSFERT DE STYLE. La Joconde peinte dans le style cubiste de Picasso (gauche), expressionniste
de Van Gogh (milieu) et impressionniste de Monet (droite).
Autre curiosité étonnante : les « rêves » des réseaux de neurones
artificiels. Comme vu dans le chapitre 6, les couches profondes des
réseaux de neurones artificiels extraient des informations complexes.
Par exemple, tel neurone sera stimulé lorsqu’un chien est détecté dans
l’image. Ce phénomène est magnifiquement illustré par les créations
« inceptionnistes » de l’algorithme Deep Dream Generator de Google.
Le principe est de faire halluciner le réseau de neurones : en partant
d’une image quelconque, on demande au réseau de neurones ce qu’il y
« voit » (quels neurones sont stimulés) et on le renforce dans l’image.
Puis on recommence, en donnant forme à son « imagination ». Dans
l’exemple de La Joconde ci-dessous, les épaules de Mona Lisa lui
évoquaient visiblement des oiseaux !
IMAGE INCEPTIONNISTE. C’est une représentation des « rêves » d’un réseau de neurones. On y voit
apparaître de manière hallucinatoire différents animaux et véhicules que le réseau de neurones a
appris à détecter.
CHAPITRE 8
DEEP LEARNING
ET LANGAGE
Qui n’a jamais ricané en entendant un assistant vocal
énumérer naïvement les restaurants les plus proches, alors
qu’on lui avait demandé les prévisions météo ? Notre exigence
envers ce genre d’algorithme est élevée, car le langage est
pour nous une évidence (du moins tant qu’on n’est pas à
l’étranger !). Mais arriver à faire comprendre notre langage et
toutes ses subtilités à un ordinateur est un travail titanesque,
qui est l’objet d’un grand domaine de l’IA : le traitement du
langage naturel. Ce domaine, tout comme celui de la vision, a
connu des progrès fulgurants depuis la révolution du deep
learning.
LE PLONGEMENT LEXICAL : COMMENT

DÉTECTER DES MESSAGES DE HAINE ?
La brique de base d’une image est le pixel. Quel est l’équivalent du pixel
pour le langage ? Vous pourriez penser en premier lieu aux lettres. Mais
une lettre ne porte pas de sens en soi : ce n’est qu’une manière commode
de représenter l’indivisible unité de sens d’un texte : le mot.
Problème : les algorithmes ne savent manipuler que des nombres. Il faut

donc trouver une manière de représenter les mots qui en conserve le
sens : deux mots qui ont un sens proche doivent être représentés par des
nombres proches. Clairement, numéroter les mots suivant leur ordre
d’apparition dans le dictionnaire ne fonctionnerait pas : « roi » et
« monarque » sont synonymes, mais éloignés alphabétiquement.
La méthode la plus employée est celle du plongement lexical (word

embedding en anglais), qui consiste à représenter les mots par des
vecteurs. Un vecteur est tout simplement un paquet de nombres, dont
chacun joue un rôle particulier. Par exemple, le premier nombre du
vecteur pourrait représenter le genre du mot (– 1 pour masculin, + 1 pour
féminin), le deuxième le nombre (– 1 pour singulier, + 1 pour pluriel)… On
peut alors transformer le mot « roi » en « rois » ou « reine » en changeant
le signe de ces deux premiers nombres.
PLONGEMENT LEXICAL. Le plongement lexical consiste à associer à chaque mot un vecteur qui en
traduit le sens. Ici, les vecteurs sont représentés par des flèches : on voit que le chemin menant
de « homme » à « femme », tracé en noir, permet également d’aller de « roi » à « reine ». De
manière plus formelle, on peut écrire la relation suivante : « roi » (rouge) + « femme » (vert) –
« homme » ( jaune) = « reine ».
Comment construit-on ces vecteurs ? Grâce à des algorithmes de

plongement lexical comme Word2Vec, et des données en masse,
typiquement extraites de Wikipédia ou Twitter. Word2Vec parcourt le
dictionnaire de A à Z. Pour chaque mot, mettons le mot « roi »,
l’algorithme relève toutes ses apparitions dans la base de données, et
pour chaque apparition, il relève les mots à proximité : souvent, on
trouvera « monarque » et « couronne ». Comme les mots proches dans
une phrase appartiennent souvent au même champ lexical, il modifie les
vecteurs de « monarque » et « couronne » pour qu’ils se rapprochent de
celui de « roi ».
Notons que cette méthode ne s’applique pas seulement aux mots : on

peut utiliser des vecteurs pour représenter le sens d’une phrase ou
encore d’un paragraphe. On peut même l’utiliser dans des domaines
complètement différents : de nombreux systèmes de recommandation
utilisent des vecteurs pour représenter les goûts d’un utilisateur. Dans ce
cas, on fait en sorte que deux utilisateurs aux goûts similaires soient
représentés par des vecteurs proches.
Les représentations des mots obtenues par ce procédé peuvent être

étonnamment riches. On peut les utiliser par exemple pour l’analyse de
sentiment, qui consiste à identifier les émotions présentes dans un
message. Tout comme une partie des vecteurs représente le genre des
mots (féminin/masculin), une autre partie peut en représenter la
positivité ou négativité. Cela peut être utile pour identifier les messages
d’incitation à la haine, qui représentent un des plus grands dangers pour
les réseaux sociaux.
Néanmoins, les plongements de mots souffrent d’une limite évidente : la

polysémie. Le mot « avocat » possède deux sens très différents, et
représenter les deux sens par un même vecteur prête à confusion. Ainsi,
le plongement lexical est davantage un moyen qu’une fin : il sert surtout
à encapsuler les mots sous une forme compréhensible par nos amis les
réseaux de neurones artificiels.
LES RÉSEAUX RÉCURRENTS :

COMMENT FONCTIONNENT
LES CLAVIERS PRÉDICTIFS ?
Tout comme les images présentent une structure spatiale, le texte (ainsi
que le son et les vidéos) présente une structure séquentielle. Alors que
pour les images, le « contexte » d’un pixel est constitué par son
voisinage, le contexte d’un mot correspond à la phrase dont il fait partie,
qui a elle-même pour contexte le paragraphe… Vous l’aurez deviné, c’est
dans ce fameux contexte que tout se joue.
Pour mettre celui-ci à profit, vous pourriez suggérer d’utiliser, comme
pour les images, des réseaux convolutifs ; et vous n’auriez pas
entièrement tort, cela se fait en pratique. Mais ce serait passer à côté
d’une chose qu’une image ne possède pas : une flèche du temps. Rien ne
choquerait un réseau convolutif dans l’agencement de la fameuse
réplique du bourgeois gentilhomme, « Mourir vos beaux yeux, belle
Marquise, d’amour me font ». Pour prendre en compte l’ordre des mots, il
faut faire appel à un nouveau type de réseau de neurones artificiel : les
réseaux récurrents.
Ce type de réseau parcourt le texte linéairement. À chaque mot

rencontré, il met à jour une variable de mémoire qui décrit le contexte.
Par exemple, la variable de mémoire pourrait indiquer que la phrase
précédente était une question, et que le mot actuel fait partie d’un
groupe nominal dont le sujet est au masculin singulier. Le
fonctionnement de ce réseau est illustré dans la figure suivante.
RÉSEAUX RÉCURRENTS. La variable de mémoire du réseau s’enrichit au fil de la phrase, en

incorporant des informations sur le contexte. Le prochain mot le plus probable est celui qui a été
suggéré par le clavier prédictif de mon smartphone. Le vôtre vous donnera probablement un
résultat différent, car il s’adapte à vos habitudes d’écriture.
Ces réseaux récurrents peuvent être utilisés, entre autres, pour la saisie
prédictive. Si vous utilisez un smartphone, vous avez sûrement
remarqué que ce dernier vous suggère le prochain mot de la phrase que
vous êtes en train d’écrire, en se basant sur les mots précédents et vos
habitudes d’écriture.
Expérience amusante : commencez une phrase par « Je pense que »

puis laissez le clavier prédictif compléter la phrase à l’aide des mots les
plus probables. Souvent, le résultat en dit long sur vous ! Dans mon cas,
le résultat fut : « Je pense que c’est une bonne idée », ce qui révèle un
certain optimisme (peut-être ce même optimisme qui me fait croire
que vous vous intéresserez à des anecdotes aussi farfelues que celle-
ci !).
LE MÉCANISME D’ATTENTION :
COMMENT FONCTIONNE
LA TRADUCTION AUTOMATIQUE ?
Il y a quelques années encore, il était extrêmement facile pour les
professeurs de langues étrangères de reconnaître le mot à mot
caractéristique des traducteurs automatiques, et de débusquer les
chenapans qui s’en étaient aidés. De nos jours, il est possible de
converser dans toutes les langues, en utilisant des oreillettes qui
écoutent et traduisent en temps réel. Comment a-t-on pu parvenir à un
tel saut qualitatif ?
Tout comme les modèles génératifs que nous avons rencontrés dans le
domaine de l’image, les algorithmes de traduction automatique mettent
en jeu un encodeur et un décodeur :
• L’encodeur reçoit en entrée les vecteurs représentant les mots de la
langue source. Son rôle est de construire une représentation compacte
de la phrase qui en résume le sens, tout comme l’encodeur du
générateur d’images construit le portrait-robot des visages qu’on lui
présente.
• Le décodeur doit restituer des vecteurs représentant la traduction de la

phrase. Pour cela, il construit la phrase mot par mot, en choisissant à
chaque étape le mot suivant le plus probable.
Sous sa forme la plus simple, l’algorithme procède d’une façon bien peu
naturelle de notre point de vue : le réseau récurrent de l’encodeur
parcourt le texte d’origine en entier, en stocke une représentation dans
sa mémoire, que le réseau récurrent du décodeur traduit tout d’un bloc.
Instinctivement, on aurait plutôt tendance à procéder par allers-retours
avec le texte d’origine, en avançant groupe de mots par groupe de mots,
sans perdre de vue le contexte.
Face aux limites des traducteurs automatiques, les chercheurs se

demandèrent comment permettre à l’algorithme de procéder d’une telle
manière sans tomber dans le mot à mot. C’est ainsi qu’apparut dans les
années 2014 un ingrédient aussi simple que révolutionnaire :
l’attention 7. Il consiste à chercher, à chaque étape du décodage, quelle
partie du texte d’origine est la plus pertinente, puis à focaliser l’attention
du décodeur sur celle-ci. Ce mécanisme est illustré dans figure suivante.
MÉCANISME D’ATTENTION. La phrase d’origine, en latin, est encodée en une représentation, puis
décodée à l’aide du mécanisme d’attention. Celui-ci indique au décodeur de porter son attention
sur cogito pour le début de phrase « je pense », sur ergo pour le « donc », et enfin sur sum pour la
fin de phrase « je suis ».
Si c’est le domaine de la traduction qui l’a rendu célèbre, ce mécanisme

d’inspiration humaine est fondamental, et de nombreux chercheurs y
voient une des pistes les plus prometteuses pour s’approcher de
l’intelligence humaine. C’est en effet l’attention qui régit notre
perception du monde. De l’infinité d’influx nerveux déclenchés par notre
peau, de bruits perçus par nos oreilles et de lumière collectée par nos
yeux, nous ne retenons qu’une infime partie : celle qui nous intéresse le
plus, à l’instant présent.
LES ASSISTANTS VOCAUX :

COMMENT FONCTIONNE SIRI ?
Les assistants vocaux comme Siri, Alexa et Google Home sont de
véritables bijoux de technologie. Lorsque vous demandez à Siri de vous
trouver la pizzeria la plus proche, une multitude d’étapes se succèdent
en un clin d’œil :
1. Le mot-clé de déclenchement (wake word) est détecté (« Hey, Siri »).
2. Un enregistrement de votre requête est envoyé sur les serveurs

d’Apple.
3. Votre voix est reconnue, isolée des autres voix et bruits environnants
et traduite en la liste de phonèmes (syllabes) la plus probable.
4. Les phonèmes sont assemblés pour reconstruire la phrase.
5. Le sens de la phrase est analysé : l’objectif et les mots-clés sont

identifiés (objectif : chercher un restaurant ; type de restaurant : pizzeria ;
lieu : au plus proche de la position actuelle).
6. Le serveur d’Apple récupère l’information demandée dans une base

de données pertinente (Google Maps).
7. La réponse est formulée en une phrase et renvoyée à votre

smartphone, qui la convertit en signal audio.
Chacune de ces étapes est complexe et fait appel à des algorithmes

indépendants, presque tous basés sur des réseaux de neurones
artificiels.
La détection du wake word paraît simple, mais est particulièrement

importante. On revient au vieux dilemme entre sensibilité et
spécificité : il faut que le seuil de déclenchement soit atteignable pour
que l’on n’ait pas à répéter trois fois le wake word, mais suffisamment
élevé pour que l’assistant ne se réveille pas au milieu de la nuit – ce qui
a causé quelques frayeurs aux utilisateurs d’Alexa 8 !
CHAPITRE 9
DEEP LEARNING
ET AGENTS INTELLIGENTS
Un agent intelligent est un algorithme capable de percevoir
son environnement et d’interagir avec lui. Les algorithmes vus
jusqu’ici sont passifs : ils reçoivent des données et retournent
un résultat. L’agent intelligent, lui, est actif : ses actions
modifient l’état de son environnement, et il doit en
permanence s’adapter à cette évolution. D’AlphaGo aux
voitures autonomes, découvrez les miracles accomplis par le
deep learning dans ce domaine.
LE DILEMME EXPLORATION-
EXPLOITATION : COMMENT JOUER
AU CASINO ?
Vous êtes au casino, devant un long rayon de machines à sous. Chacune
d’elles fournit une récompense fixe, que vous ne connaissez pas à
l’avance. Votre objectif : maximiser vos gains après cent coups. Vous
glissez alors une pièce dans la première machine, qui vous en rend trois.
Vous essayez ensuite la deuxième, qui, vous en donne dix.
Enthousiasmé, vous poursuivez l’exploration, mais à votre grand

désarroi, la machine suivante engloutit votre pièce sans rien vous
donner en retour ! Vous vous retrouvez alors face à un dilemme : que
faire ensuite ? Vaut-il mieux continuer à jouer sur la machine qui
fournissait dix pièces à coup sûr, ou essayer d’autres machines, dans
l’espoir d’en trouver une encore plus rentable ?
Vous faites face au célèbre dilemme exploration-exploitation. Un

algorithme trop épicurien, qui se contenterait d’exploiter une seule
machine, ne saurait jamais à côté de quoi il passe. À l’inverse, un
algorithme trop aventurier, qui explorerait sans jamais s’arrêter sur une
machine, ne mettrait jamais à profit ses découvertes.
Plusieurs stratégies sont envisageables pour trouver un compromis

dans ce dilemme. La plus basique, qualifiée d’exploration gloutonne, est
d’exploiter systématiquement la meilleure machine rencontrée, mais de
temps en temps (tous les dix coups par exemple) en tester une nouvelle.
Une version plus élaborée est d’explorer beaucoup au début, puis de
moins en moins au cours du temps… Ce qui ressemble un peu à nos
choix de vie : on touche un peu à tout lorsqu’on est jeune, puis on choisit
sa voie, et la probabilité d’en dévier diminue avec l’âge.
Une autre approche serait l’exploration contextuelle. Elle consiste à

adapter le goût du risque à la situation. Si votre compte bancaire est à
découvert, il vaut mieux minimiser les risques et favoriser l’exploitation :
« Mieux vaut un tiens que deux tu l’auras. » Mais lorsque vous roulez sur
l’or, vous pouvez vous permettre d’explorer : « Qui ne tente rien n’a
rien ! »
Le dilemme exploration-exploitation est un des fondements de
l’apprentissage par renforcement, mode d’apprentissage qui consiste à
faire apprendre à un agent autonome la meilleure séquence d’actions
pour optimiser une récompense. De manière générale, les stratégies
tournées vers l’exploration ont tendance à favoriser des comportements
que l’on pourrait qualifier de plus créatifs (voir figure suivante).
CRÉATIVITÉ D’UN AGENT INTELLIGENT 9. Cette petite araignée était mise au défi de marcher en
minimisant le contact de ses pattes avec le sol. Elle trouva une solution à laquelle ses créateurs
n’avaient même pas pensé : basculer en avant pour se retrouver à l’envers, puis marcher sur les
coudes !
L’APPRENTISSAGE
PAR RENFORCEMENT PROFOND :
COMMENT FONCTIONNE ALPHAGO ?
Illustrons l’apprentissage par renforcement par un exemple très simple :
celui d’une IA à qui l’on essaierait d’apprendre à jouer aux échecs.
L’étape cruciale est de choisir le barème des récompenses.
La première idée qui vient à l’esprit est d’assigner à chaque pièce une
valeur symbolique. Les joueurs d’échecs retiennent généralement la
règle suivante :
• pion : 1
• cavalier : 3
• fou : 3
• tour : 5
• dame : 9
On récompenserait ou punirait l’algorithme en fonction de ces valeurs :

capturer un pion lui donne un bonus de 1 point, perdre sa dame lui
donne un malus de 9 points… Enfin, pour qu’il ne perde pas de vue le but
réel de la partie, on lui donne une grande récompense lorsqu’il capture le
roi, par exemple un bonus de 50 points. Mais cette approche souffre de
deux problèmes.
Premièrement, on ne considère que le coup présent, et pas les coups

futurs. Résultat : on se retrouve avec un algorithme glouton, qui
cherche uniquement à maximiser sa récompense immédiate, sans
élaborer une stratégie de long terme. Autrement dit, il favorise
l’exploitation au détriment de l’exploration.
Comment donner à cet algorithme une vision plus riche du jeu ? Une
idée serait de le faire réfléchir sur plusieurs coups, en lui imposant de
maximiser la récompense totale sur plusieurs coups. Mais même si on ne
considère que les trois prochains coups, on se retrouve avec un nombre
titanesque de possibilités à envisager ! Ce qu’il faudrait, ce serait une
petite boule de cristal pour prédire la récompense future de chaque
coup, sans avoir à envisager toutes les possibilités.
Or, les boules de cristal existent de nos jours grâce au deep learning !
L’idée de Deepmind, filiale de Google spécialiste de l’apprentissage par
renforcement, fut d’utiliser des réseaux de neurones appelés deep Q-
networks pour prédire la récompense future d’un coup, appelée Q-
valeur, en s’inspirant des coups similaires observés dans le passé, dont
les conséquences sont connues. C’est ce qui leur a permis de mettre au
point le célèbre AlphaGo.
Deuxièmement, on impose à l’algorithme une manière de jouer qui n’est

pas forcément optimale. En soi, un algorithme se moque de gagner ou
perdre : ce qu’il veut avant tout, c’est maximiser sa récompense. Dans
cette situation, sa priorité serait de capturer des pièces à tout prix, sans
vraiment chercher absolument à gagner.
Les experts le savent : il n’y a pas que la valeur des pièces à prendre en
compte, il y a aussi leur position sur le plateau. Il n’est pas rare que des
maîtres sacrifient une pièce importante, si cela leur donne un avantage
positionnel. Problème : s’il est facile d’affecter des valeurs aux pièces, il
est difficile de quantifier précisément ce qu’est une « bonne position ».
Donner des récompenses à chaque pièce capturée facilite certes

l’apprentissage, car cela donne des objectifs concrets à l’algorithme.
C’est d’ailleurs la manière dont on apprend aux débutants à jouer aux
échecs. Mais si on veut que notre algorithme soit un véritable stratège,
la seule solution est de le laisser libre d’apprendre à sa propre manière.
Comment ? En choisissant le système de récompense le plus simple du
monde : + 1 pour une victoire, – 1 pour une défaite.
C’est ainsi que sont entraînés les algorithmes de jeu les plus
performants, comme AlphaGo. L’apprentissage est très long, car lors de
ses premières parties l’algorithme n’a aucune idée de ce qui est bon ou
mauvais et tentera des coups aléatoires. AlphaGo s’est entraîné en
jouant plusieurs millions de fois contre lui-même, un nombre de parties
inenvisageable à l’échelle humaine… Mais au fil de ses expériences, il a
su développer une vision très mature et innovante du jeu,
révolutionnant selon certains experts des stratégies humaines pensées
depuis des siècles.
Lors de la deuxième partie de sa rencontre historique contre Lee Sedol,
e
le 37 coup d’AlphaGo fut qualifié de « coup divin » tant il était
impensable d’un point du vue humain. Piqué dans son orgueil, son
adversaire lui rendit la pareille lors de la 4e partie… Causant la déroute
de l’algorithme, qui n’avait pas prévu un tel coup de la part d’un
« simple » humain !
LES VOITURES AUTONOMES :

COMMENT L’IA PEUT-ELLE PRENDRE
LE VOLANT ?
Du point de vue de l’IA, conduire une voiture compte probablement
parmi les tâches les plus complexes du monde réel. Premièrement, parce
que la quantité d’informations à ingurgiter et la diversité des situations
rencontrées sont phénoménales. Deuxièmement, parce que l’IA n’a pas
droit à la moindre erreur. Des accidents comme celui de la voiture
autonome d’Uber 10 sont rédhibitoires face à la fragilité de la confiance
humaine en l’IA.
L’histoire des voitures autonomes remonte à 2004, lors d’une course

organisée par la DARPA, l’Agence américaine de recherche sur les
projets de défense. Sur la cinquantaine de voitures alignées sur la ligne
de départ en plein milieu du désert Mojave, en Californie, aucune ne
parvint à franchir la ligne d’arrivée. Mais l’engouement fut suscité, et
l’année suivante, la quasi-totalité des concurrents bouclèrent la course.
Les voitures autonomes de nos jours sont des engins bardés de capteurs.
• Radar : sorte de gyrophare qui scanne l’entourage de la voiture à l’aide

d’ondes radio. Comme dans un sous-marin, ces dernières se
réfléchissent sur les objets proches, permettant d’obtenir une
cartographie 3D de l’entourage.
• Lidar : semblable au radar, il utilise toutefois des ondes lumineuses.

Ces dernières sont plus précises que les ondes radio, mais voyagent
moins loin, surtout par conditions de pluie ou de brouillard.
• Caméras : celles-ci permettent à la voiture de voir comme nous voyons

nous. Les algorithmes dits de segmentation d’image permettent de
détecter les différents objets : route, panneaux, piétons…
La voiture reçoit simultanément des signaux, parfois contradictoires, de

tous ces détecteurs, qui possèdent des forces et des faiblesses
différentes. Un sachet plastique emporté par le vent sera perçu comme
un obstacle par le lidar, alors que les ondes du radar passeront à travers.
Quant à la caméra, elle pourrait prendre le sachet plastique pour un
oiseau en cas de brouillard. Comment savoir qui croire ? Il faut faire
appel à une notion que nous avons déjà vue plus tôt : l’inférence
bayésienne.
Celle-ci permet de combiner les différentes informations que l’on

possède pour réviser sa confiance en une hypothèse. Ici, la voiture se
demande s’il faut freiner d’urgence. La probabilité habituelle de devoir
faire cela est faible. Mais face à l’inoffensif sachet plastique, le lidar crie
danger, ce qui fait augmenter la probabilité. Le radar, lui, ne signale rien,
ce qui fait diminuer la probabilité. Et ainsi de suite : en incorporant une
à une les informations, on arrive à une décision finale.
Notons qu’il existe différents niveaux d’autonomie du point de vue du
conducteur : lever les pieds des pédales, les mains du volant, et enfin les
yeux de la route. Le premier niveau d’autonomie est atteint depuis un
moment avec les régulateurs de vitesse. De rares voitures, comme
certains modèles de la marque Tesla, permettent de lever les mains du
volant pendant un certain temps, mais il faut garder les yeux sur la route
et être prêt à intervenir à tout moment. Quant à l’ultime étape de
l’autonomie complète, nous en sommes encore loin.
Certes, des prototypes de voitures sans conducteur sillonnent déjà les

routes. Mais les itinéraires qu’ils suivent sont choisis pour éviter les
situations complexes. Imaginez une petite rue de village sans
signalisation, encombrée de la cohue d’un marché aux puces et d’enfants
jouant au ballon… Au mieux, la voiture refuserait d’avancer, terrifiée par
la quantité d’informations à ingurgiter et le danger omniprésent.
Seule une compréhension profonde du monde et des comportements

humains peut permettre de faire face à des situations aussi complexes.
Autrement dit, les voitures parfaitement autonomes n’apparaîtront pas
avant la première véritable intelligence artificielle généraliste, souvent
appelée IA forte. En sommes-nous proches ? La réponse est dans le
prochain chapitre. D’ici là, il faudra soit adapter nos routes aux voitures
autonomes, soit être prêt à reprendre le volant dès qu’on veut sortir des
sentiers battus.
CHAPITRE 10
L’INTELLIGENCE
ARTIFICIELLE
FACE À L’INTELLIGENCE HUMAINE
Dans son best-seller Thinking, Fast and Slow 11, l’économiste

Daniel Kahneman sépare les raisonnements humains en deux
catégories : ceux dits de système 1, intuitifs, rapides et
automatiques, et ceux dits de système 2, logiques, lents et
réfléchis *1. Certains définissent l’intelligence humaine comme
la capacité à inhiber le système 1 pour mettre en marche le
système 2. Dès lors, une question se pose : puisque les
ordinateurs fonctionnent exclusivement à partir de calculs
rapides et automatiques, dépasseront-ils un jour ce système 1
pour accéder au système 2, qui relève d’une véritable
conscience ?
PEUT-ON SIMULER L’INTELLIGENCE

HUMAINE ?
Dans les années 1950, Alan Turing se demanda à partir de quel moment
on pourrait déclarer qu’un ordinateur a atteint un niveau d’intelligence
humain. Il proposa alors une expérience de pensée devenue
célébrissime : le test de Turing. Ce test consiste à placer un être humain
et un ordinateur dont on veut sonder l’intelligence dans des pièces
séparées. Un « juge » pose des questions bien choisies aux deux, et
cherche à déterminer lequel des deux est l’ordinateur en se basant sur
leurs réponses. Si plus de 30 % des juges ne parviennent pas à trancher,
l’ordinateur est supposé avoir atteint un niveau d’intelligence humain.
Depuis sa publication, les critiques à l’encontre du test sont légion.

Parmi ses détracteurs figure le philosophe américain John Searle, qui
proposa en réponse une nouvelle expérience de pensée : la chambre
chinoise. Ici, un individu ne parlant pas un mot de chinois parvient à
répondre à des questions d’un locuteur chinois en utilisant un catalogue
de questions-réponses prédéfinies. L’argument de la chambre chinoise
suggère qu’on peut très bien fournir des réponses sensées à des
questions dont on ne comprend en réalité pas le sens. Mais cet argument
a lui-même été vivement attaqué. Certains avancent le fait que le
nombre de questions possibles est infini, et ne peut donc pas être
catalogué ; d’autres, le fait que l’individu ne pourra pas adapter ses
réponses au contexte puisqu’il ne le comprend pas.
Toujours est-il que depuis 1950, personne n’a trouvé mieux que le test de
Turing pour mesurer l’« intelligence » d’une machine, malgré toute
l’ambiguïté qui se cache derrière le concept !
PEUT-ON SIMULER LA CONSCIENCE

HUMAINE ?
Imaginons que l’on arrive à créer une IA capable de passer avec brio le
test de Turing. Aura-t-on fabriqué un « zombie » au sens philosophique
du terme, à l’apparence indiscernable de celle d’un être conscient mais
sans vécu personnel ? Lorsque cette IA exprimera une opinion,
comment savoir si elle provient d’un réel ressenti, ou d’une pure
simulation ? Une machine pensante n’est pas une machine désirante, et
si l’intelligence est difficile à sonder, la conscience l’est d’autant plus, car
Descartes l’a bien dit, nous n’avons accès qu’à la nôtre : « Je pense, donc
je suis. »
L’usage de robots humanoïdes comme esclaves sexuels commence à

proliférer partout dans le monde 12. Bien que nous en soyons encore loin,
qu’adviendrait-il si ces robots s’approchaient d’une réelle forme de
sensibilité ? Le droit des robots deviendrait sans doute une question
majeure, aussi débattue que le droit des animaux. Serait-il acceptable de
faire fi de leur consentement, en prétextant leur absence de conscience ?
Assisterait-on à une nouvelle controverse de Valladolid, où les humains
joueraient le rôle des colons, et les indigènes celui des robots ? Pourrait-
on tomber amoureux de ces robots, à l’image de Theodore Twombly et
sa pétillante assistante de vie Samantha dans le film de Spike Jonze,
Her ?
Si nous pouvions simuler une conscience, un scénario récurrent de

science-fiction pourrait devenir réalité : le téléchargement d’esprit, qui
permettrait de transférer l’état d’un cerveau à un ordinateur. Certains
l’envisagent comme une manière d’apaiser le deuil, en interagissant
virtuellement avec un défunt dont l’IA simulerait la voix et la
personnalité. D’autres, plus transhumanistes, y voient l’avènement d’une
nouvelle espèce : les posthumains. Débarrassés de la fragilité d’un corps
en chair et en os, et dotés d’une intelligence augmentée, ils prendraient
petit à peu le dessus sur les humains…
É
DANS QUELS DOMAINES L’IA DÉPASSE-
T-ELLE DÉJÀ L’ÊTRE HUMAIN ?
C’est un fait : de nos jours, l’IA dépasse l’être humain dans de nombreux
champs d’application. C’est une blessure narcissique difficile à accepter
pour l’humain, mais ce n’est pas la première. Il a bien dû accepter que la
Terre n’est pas le centre de l’Univers avec Copernic, qu’il descend du
singe avec Darwin, et qu’il n’est pas maître de sa propre pensée avec
Freud. Et cette fois, il peut au moins se satisfaire du savoir que c’est sa
propre création qui le dépasse.
Les ordinateurs excellent particulièrement dans les domaines qui font

appel à la rapidité, la précision et la logique. L’exemple le plus notable
est celui des jeux, qui révélèrent en grande partie la puissance de l’IA
avec les victoires retentissantes de Deep Blue et AlphaGo face aux
champions du monde humains. Mais on peut également citer la finance :
le trading est automatisé à vitesse grand V par des algorithmes haute
fréquence, qui placent des milliers de micro-investissements chaque
seconde. Dans la fameuse banque d’affaires Goldman Sachs, les effectifs
parlent d’eux-mêmes : de leurs 600 traders en 2000, il ne reste qu’une
poignée aujourd’hui 13.
À l’inverse, les domaines qui touchent à la vision ou au langage,

davantage fondés sur l’intuition et les sens que la logique, donnent un
grand avantage aux êtres humains, qui bénéficient de l’expérience qu’ils
ont acquise au long de leur vie. Turing lui-même était optimiste en
prévoyant que les ordinateurs passeraient son célèbre test en l’an 2000.
Nous en sommes encore loin, malgré quelques allégations contestées,
comme en 2014, lorsqu’un chatbot se faisait passer pour un enfant
ukrainien aux yeux de 33 % des juges d’un comité britannique 14.
Néanmoins, le deep learning a permis des progrès fulgurants dans ces
domaines : les réseaux de neurones convolutifs arrivent à reconnaître
des cancers de la peau mieux que les experts humains 15 !
À QUAND LA SINGULARITÉ
TECHNOLOGIQUE ?
À partir des années 1990, constatant l’évolution exponentielle du
progrès avec la loi de Moore, certains futurologues émirent l’hypothèse
d’une singularité technologique, moment où l’IA prendrait l’ascendant
sur l’être humain : on parle alors d’« IA forte ». Passé ce point, le progrès
deviendrait incontrôlable, l’IA étant en capacité de s’améliorer elle-
même. Alors, sommes-nous au bord de la singularité ?
La réponse est clairement non. Premièrement, parce que l’IA reste bien
moins efficace que notre cerveau en termes de quantité d’énergie et de
données. Alors qu’un enfant saurait reconnaître des races de chiens très
proches à partir d’une photo de chacune d’elles, les algorithmes
d’apprentissage supervisé les plus récents ont besoin de plusieurs
milliers d’images et d’heures d’entraînement pour atteindre les mêmes
performances. Deuxièmement, les algorithmes les plus performants
peuvent parfois battre les êtres humains dans une tâche précise, mais
sont bien loin d’atteindre la versatilité du cerveau humain : AlphaGo
serait bien incapable de distinguer des races de chien.
Notons que ces deux points sont en fait très liés : puisqu’on n’entraîne
les algorithmes que pour une tâche précise, ils ne peuvent mettre à profit
des connaissances externes comme le font les humains. L’enfant qui
apprend à distinguer deux races de chien triche par rapport à
l’algorithme, car il s’aide de tout ce qu’il a appris depuis sa naissance. Du
premier coup d’œil, il isole le chien de l’arrière-plan, identifie ses parties
du corps et cherche ses spécificités, tandis que l’algorithme ne sait ni ce
qu’est un chien, ni ce qu’est l’arbre devant lequel il est assis !
Ne nous leurrons pas : la versatilité de l’IA est amenée à s’améliorer.

Spécialiser les algorithmes leur rend la tâche plus facile, mais devient de
moins en moins nécessaire. Un exemple parlant : AlphaGo s’inspirait
lors de ses coups d’un grand nombre de parties de championnats de go
insérées dans sa mémoire. Mais ce coup de pouce le spécialise au jeu de
go : il était incapable de jouer aux échecs. À l’inverse, son petit frère
AlphaZero, mis au point un an plus tard, apprend tout seul, en
s’inspirant uniquement des parties jouées contre lui-même. Résultat :
après quelques heures d’entraînement, AlphaZero est suffisamment
versatile pour battre AlphaGo au go, mais également le champion du
monde des algorithmes d’échecs, Stockfish, après quelques heures
d’entraînement 16 !
Pour autant, les futurologues provocateurs comme Ray Kurzweil, qui

prédit une singularité technologique à l’horizon 2045, sont très
optimistes. Comme le souligne l’informaticien français Jean-Gabriel
Ganascia dans Le Mythe de la singularité 17, ils oublient souvent que la
loi de Moore finira par s’essouffler, car on ne peut miniaturiser les
transistors au-delà d’un certain point. De nos jours, ils mesurent parfois
moins de 10 nanomètres 18 ; si la loi de Moore demeurait vraie, ils
atteindraient la taille d’un atome dans une dizaine d’années !
S’approcher d’une IA forte reste pour autant un sujet de recherche

majeur. C’est d’ailleurs le slogan des créateurs d’AlphaGo : « résoudre
l’intelligence ». Mais pour l’instant, si on a réussi à simuler le cerveau
d’un ver de terre 19, on est encore loin d’atteindre la versatilité du cerveau
d’une souris…
COMMENT TIRER PARTI
DE LA COMPLÉMENTARITÉ HOMME-
MACHINE ?
L’être humain et l’IA excellent dans des domaines si différents qu’il est
difficile de les comparer. Le test de Turing reflète d’ailleurs une tendance
narcissique de l’être humain à définir l’intelligence à partir de son propre
jugement et sur la base de domaines dans lesquels il excelle. La maîtrise
d’un langage complexe nous distingue certes de l’animal, mais peut-on
vraiment définir l’intelligence à partir de ce seul critère ? Un système
d’IA pourrait tout aussi bien, un jour, mettre au point sa propre
définition de l’intelligence à partir de la rapidité de calcul à la seconde
ou de la performance au jeu d’échecs, et créer son propre test de Turing
pour humains en nous mettant au défi de la battre sur une partie !
Peut-être que la question à se poser n’est pas de savoir qui est le plus
intelligent, mais plutôt comment il est possible de combiner nos
intelligences. Comme le disait Albert Einstein : « Les ordinateurs sont
incroyablement rapides, précis et stupides. Les hommes sont
incroyablement lents, inexacts et intelligents. L’ensemble des deux
constitue une force incalculable. »
La complémentarité entre l’intuition humaine et la puissance

computationnelle est une formidable opportunité pour faire de la
coopération homme-machine une combinaison gagnante. L’IA peut par
exemple faire gagner beaucoup de temps à l’humain en lui évitant des
tâches répétitives : on voit cela dans le service clientèle téléphonique, où
un robot prend en charge la conversation pour les questions simples et
routinières, mais laisse la place à un conseiller pour les questions plus
complexes.
L’IA peut aussi avoir pour fonction de réduire le champ des possibles
pour l’humain, lui permettant ainsi de se concentrer sur l’essentiel.
Prenez le cas du dépistage du cancer du sein chez les femmes, qui
s’apparente pour les pathologistes au fait de chercher une aiguille (un
petit groupe de cellules cancéreuses) dans une botte de foin (l’image du
sein). Si le pathologiste se trompe rarement sur la nature d’une anomalie
une fois qu’il en a détecté une, il peut lui arriver d’en rater quelques-unes
en parcourant l’image trop rapidement : il offre une bonne spécificité
mais manque de sensibilité. La solution ? Utiliser un algorithme très
sensible (mais peu spécifique) pour pré-identifier toutes les potentielles
anomalies, et laisser le pathologiste les passer au peigne fin. En
combinant ainsi leurs forces, le pathologiste et l’algorithme dépassent
de loin leurs performances individuelles 20.
Comme le prédisait Einstein, il y a tout lieu de penser que le système

« homme + IA » pourra dépasser la somme de ses éléments. Mais
l’alchimie entre les deux est subtile, et demande beaucoup de réflexion.
Prenez les « échecs avancés », cette variante des échecs conçue par
Kasparov, où l’humain est assisté d’un ordinateur qui lui indique la
valeur prédite des coups proposés. Dans les tournois, les équipes
gagnantes ne sont souvent pas celles qui ont le meilleur joueur ou la
meilleure machine, mais celles qui ont su trouver le meilleur protocole
de communication entre les deux, les unifiant pour créer un « centaure »
parfait 21.
*1. Une question très simple illustre ces deux systèmes. Une raquette et une balle coûtent
1 euro et 10 centimes : si la raquette coûte 1 euro de plus que la balle, combien coûte la balle ?
Votre système 1 vous crie probablement 10 centimes. Mais en mettant en marche votre
système 2, vous vous apercevrez que cette réponse est fausse, car la raquette coûterait alors
1 euro et 10 centimes, ce qui donnerait un total de 1 euro et 20 centimes. La réponse est
5 centimes.
CHAPITRE 11
FAUT-IL CRAINDRE L’IA ?

Des légendes du Golem de la mythologie juive à aujourd’hui,
en passant par le terrifiant Hal 9000 de 2001 : l’Odyssée de
l’espace, l’homme a toujours été terrifié à l’idée de voir une
machine créée de ses propres mains lui échapper totalement
et tout détruire sur son passage. La thématique de la perte de
contrôle du créateur face à la créature est très prégnante dans
l’imaginaire collectif et a été utilisée à des fins dramatiques
dans une pléthore d’ouvrages littéraires et d’œuvres
cinématographiques.
L’idée obsédante d’une rébellion des machines contre les êtres

humains agaçait le célèbre écrivain de science-fiction Isaac
Asimov, qui la qualifiait de « complexe de Frankenstein ».
Pour rationaliser le rapport aux machines, il énonce trois
règles universelles de la robotique dans l’une de ses nouvelles
publiée en 1942 :
1. Un robot ne peut porter atteinte à un être humain, ni, en

restant passif, permettre qu’un être humain soit exposé au
danger.
2. Un robot doit obéir aux ordres qui lui sont donnés par un
être humain, sauf si de tels ordres entrent en conflit avec la
première loi.
3. Un robot doit protéger son existence, tant que cette

protection n’entre pas en conflit avec la première ou la
deuxième loi.
Rassurez-vous : les robots de nos jours ressemblent bien plus à

ceux d’Asimov qu’à ceux de Stanley Kubrick. Ils sont
largement assez stupides pour rester dociles et inoffensifs.
Mais l’histoire nous a appris que l’être humain se suffit à lui-
même pour créer des dystopies 22. Ainsi il semble légitime de
se demander : vers où se dirige-t-on avec l’IA ?
L’IA PEUT-ELLE ÊTRE UNE ARME ?

Et si en 1984, James Cameron avait vu juste avec son Terminator,
créature robotisée capable de tuer en son âme et conscience des êtres
humains ? Trente-six ans plus tard, les enjeux liés à la perspective pour
un robot de choisir et d’attaquer des cibles humaines sans le contrôle et
la validation effectifs de son créateur sont on ne peut plus d’actualité.
Le robot militaire sentinelle sud-coréen SGR-A1, développé par

Samsung, est la cible emblématique de la campagne Stop Killer Robots
initiée par l’ONG Human Rights Watch. Depuis 2013, ce robot équipé de
caméras, de capteurs, d’une mitraillette et d’un lance-grenades surveille
la zone « démilitarisée » entre les deux Corées. Surnommé
« l’infatigable », il est capable de repérer des cibles dans un rayon de
4 kilomètres et de les abattre après avoir reçu le feu vert d’un opérateur
humain 23.
Rien de nouveau jusque-là : durant la Seconde Guerre mondiale, la

Wehrmacht utilisa plus de 8 000 Goliath, petits engins filoguidés conçus
pour foncer sur l’ennemi avec un tas d’explosifs sur le dos. Le système de
défense antimissile Phalanx qui équipe l’U.S. Navy depuis 1980, ou son
équivalent terrestre israélien, Dôme de fer, ont également été
programmés pour riposter de manière automatique, dans un
environnement contrôlé, contre une cible prédéfinie.
À la différence près qu’aujourd’hui, des pays comme les États-Unis, la

Chine, la Russie, Israël ou la Corée du Sud se sont embarqués sur la
pente glissante des systèmes d’armes létaux autonomes. Ainsi, dans sa
forme d’autonomisation la plus poussée, le SGR-A1 est conçu pour
désigner sa cible et ouvrir le feu sans intervention ni supervision
humaines. De son côté, l’entreprise russe Kalachnikov perfectionne
NeuroNet, un réseau de neurones capable « d’identifier des cibles, de
s’améliorer par l’expérience et de décider par lui-même des tirs à
effectuer » 24.
Il va sans dire que l’intégration de plus en plus rapide de l’IA dans la

robotique militaire suscite de vastes débats. En juillet 2015 déjà, plus de
3 000 éminents scientifiques et directeurs d’entreprise – parmi lesquels
l’astrophysicien anglais Stephen Hawking ou encore Elon Musk,
fondateur de Tesla – réclamaient l’interdiction des armes totalement
autonomes dans une lettre ouverte 25. Depuis, les appels à une prise de
conscience internationale se multiplient.
La course aux armements de pointe a toujours constitué un réel défi

pour les nations. À l’heure où une trentaine de pays, dont la France, se
positionnent pour l’adoption d’un traité interdisant les machines ayant
le pouvoir de supprimer des vies humaines, les attentes se font de plus
en plus grandes envers les Nations unies.
À notre petite échelle, il ne nous reste qu’à espérer que les décideurs
garderont sagement en tête le concept de « brouillard de la guerre » si
cher au théoricien militaire prussien Carl von Clausewitz. Comme nous
l’avons évoqué dans le chapitre 9, les voitures autonomes sont encore
loin de pouvoir faire face aux situations complexes. À plus forte raison,
le champ de bataille étant le lieu par excellence de l’incertitude, l’usage
de systèmes entièrement autonomes ne ferait qu’ajouter du chaos au
chaos par l’introduction d’une variable incontrôlable. Qui tenir pour
responsable en cas d’erreur d’appréciation de la machine ?
Qu’adviendra-t-il lorsque les coûts de fabrication de ces robots seront si
bas qu’ils seront accessibles à tous les dictateurs et terroristes ?
Au-delà des dangers liés à l’autonomisation, il importe de garder à

l’esprit que toute machine s’expose dès sa mise en service au risque
d’être piratée. Les cyber-attaques ont un potentiel tout aussi destructeur
que les armes physiques. Ainsi, dès 2010, les États-Unis détruisaient des
centrales nucléaires iraniennes en perturbant leur fonctionnement à
l’aide du virus Stuxnet 26. En 2017, le rançongiciel WannaCry infectait
plusieurs centaines de milliers d’ordinateurs à travers le monde en
l’espace de quelques heures seulement 27. Réclamant un lourd paiement
pour rendre l’accès aux fichiers encryptés, le virus sema le chaos, en
particulier dans de nombreux hôpitaux britanniques.
Dans un monde où tout se technologise, quelles pourraient être les

conséquences – à la fois matérielles et humaines – de virus dopés à
l’intelligence artificielle ? Qu’adviendrait-il si des pirates décidaient de
s’en prendre aux prothèses cardiaques, aux feux de signalisation ou
encore aux aiguilleurs du ciel ?
L’IA PEUT-ELLE MENACER
LA DÉMOCRATIE ?
Trois grands blocs se disputent la suprématie de l’IA : les États-Unis et
leurs GAFA (Google, Amazon, Facebook, Apple), la Chine et ses BATX
(Baidu, Alibaba, Tencent, Xiaomi), et quelque peu en retrait, l’Europe,
dont la France est un des pays les plus influents. Dans cette course
effrénée à la souveraineté technologique, les règlementations, pourtant
essentielles, apparaissent souvent comme des barrières, et certaines
considérations démocratiques élémentaires peuvent être prises de
vitesse.
C’est le cas en Chine, où l’une des utilisations les plus inquiétantes de

l’IA est mise en place avec le système de crédit social. Ce programme de
surveillance de masse utilise la reconnaissance faciale et vocale pour
répertorier les actions des citoyens et leur attribuer une « note ».
Traverser la rue en dehors d’un passage piéton peut faire baisser la note,
tandis que les gestes de charité peuvent la faire augmenter. En fonction
de leurs notes, les citoyens se voient accorder des droits différents :
certains lieux ou transports en commun sont réservés aux citoyens les
mieux notés. Plus grave encore, les données recueillies par l’État-parti
chinois sont utilisées pour arrêter de manière préventive des milliers de
membres de la communauté musulmane des Ouïghours, et les conduire
dans les camps de rééducation de la région du Xinjiang 28.
Une telle atteinte aux libertés individuelles peut sembler de l’ordre de la

fiction en France, mais la ville de Nice a déjà expérimenté l’emploi de
systèmes de reconnaissance faciale pour identifier des individus fichés S
sur la voie publique 29.
L’IA commence également à faire son apparition sur la scène politique,

comme en 2019 lors du Grand Débat faisant suite à la crise des gilets
jaunes 30. Pour extraire une synthèse du nombre colossal de
contributions récoltées dans les « cahiers de doléances », le
gouvernement a fait appel à la société française Qwam, spécialisée dans
le traitement du langage naturel, non sans susciter des inquiétudes : si
l’IA peut être un outil puissant pour favoriser la démocratie
participative, il faut veiller à ce qu’elle ne dénature pas les points de vue
en les entachant de ses propres biais.
Un autre grand danger sociétal est lié à l’essor de la technologie du deep

fake, décrite dans le chapitre 7. Vous avez pu y reconnaître quelques
visages usurpés, mais le deep fake, aussi appelé hypertrucage, ne
s’arrête pas là. En août 2019, une entreprise se faisait dérober des
centaines de milliers d’euros lorsqu’un employé a donné suite à une
fausse demande de virement bancaire par téléphone, imitant la voix du
P.-D.G. 31. On peut craindre que les falsifications deviennent si réalistes
et fréquentes qu’il soit un jour impossible de démêler le vrai du faux,
autant dans les médias que dans nos interactions quotidiennes. Une telle
confusion non seulement présente le risque d’inculper des innocents,
mais offre également aux coupables une opportunité de se dédouaner en
prétextant des fake news.
Heureusement, l’hypertrucage peut être combattu par l’IA elle-même :

de grands projets de recherche ont ainsi été mis en place pour
développer des contre-algorithmes. Fin 2019, Facebook a même lancé un
concours d’algorithmes de détection, dont le premier prix est doté d’une
récompense de 10 millions de dollars 32.
L’ordre public est menacé dans de nombreux pays par l’incitation à la
haine véhiculée par les réseaux sociaux. En 2018, l’ONU accusait
Facebook de n’avoir pas su contenir la montée de l’islamophobie en
Birmanie 33. C’est également par cette plateforme qu’opèrent de
nombreux réseaux de recruteurs terroristes. Le réseau social a
l’immense responsabilité de filtrer de tels contenus tout en évitant de
porter atteinte à la liberté d’expression, comme cela a été le cas avec la
censure du célèbre tableau de Gustave Courbet, L’Origine du
monde 34.
QUEL SERA L’IMPACT DE L’IA

SUR LE MONDE DU TRAVAIL ?
Une chose est certaine : le monde du travail est en train d’être
profondément transformé par l’IA. Ce n’est pas nouveau, me direz-vous :
le progrès technique a toujours eu pour objectif d’automatiser certains
processus. L’humanité a déjà connu trois révolutions industrielles : celle
de la machine à vapeur, celle des nouvelles sources d’énergie comme
l’électricité, le gaz et le pétrole, et enfin celle de l’électronique, des
télécommunications et de l’informatique. À chaque fois, le marché de
l’emploi s’est transformé, mais a survécu. La particularité de la quatrième
révolution industrielle, celle de l’industrie 4.0, dont l’IA fait partie
intégrante, réside tout autant dans l’abondance que dans la diversité des
métiers concernés.
Selon une étude menée par un groupe d’Oxford, la moitié des métiers
actuels seraient automatisables d’ici 2030 35. Cette évolution fait bien
entendu peser le risque d’un chômage de masse. Toutefois, d’autres
études affirment que la majorité des emplois exercés en 2030
n’existent pas encore aujourd’hui 36. Un enjeu crucial est donc de
trouver un équilibre entre création et destruction d’emploi en adaptant
notre système éducatif. La priorité serait d’encourager les études
longues et de miser sur les domaines qui font appel aux soft skills
spécifiquement humains, comme la créativité ou l’empathie.
Certains voient dans l’IA une opportunité pour les travailleurs de se

libérer des besognes fastidieuses et de se consacrer à des tâches plus
intéressantes. Mais comme lors des précédentes révolutions, les cols
bleus encourent le risque de se retrouver dans des rôles encore plus
aliénants. Dans certains cas, le travailleur supervise la machine qui le
remplace : c’est le cas des plateformes de micro-travail comme Amazon
Mechanical Turk, où il étiquette des données, évalue les performances
ou détecte les failles d’un algorithme. Dans d’autres cas, le rapport de
force est inversé : c’est le travailleur qui est sous le joug d’une machine
battant froidement la cadence. On pense bien sûr aux services de
livraison à domicile comme Deliveroo, mais aussi à Amazon, qui utilise
des algorithmes pour surveiller la productivité de ses travailleurs 37.
Plus généralement, la relation salarié-patron est remplacée par une

relation travailleur indépendant-algorithme dans l’ensemble des services
dits « ubérisés ». Bien que ces derniers soient souvent moins onéreux et
plus pratiques du point de vue du consommateur, les travailleurs
indépendants y évoluent dans l’isolement le plus total, sans contrat de
travail ni protection sociale.
La révolution numérique doit également veiller à éviter toute sur-
dépendance de l’homme vis-à-vis de la machine. Les conséquences d’un
manquement à cette règle sont illustrées au quotidien par la
détérioration de notre sens de l’orientation depuis l’arrivée des GPS ! Le
métier de pilote de ligne, par exemple, a été profondément transformé
par le développement du pilotage automatique. Mais en laissant un
algorithme se charger du pilotage, le pilote perd en expérience. Et c’est
en grande partie l’incapacité des pilotes à faire face à une situation
d’urgence qui a causé le drame du vol Rio-Paris en 2009…
Face à ces différents écueils, il est urgent de penser et repenser une

collaboration homme-machine saine et efficace. Les exemples d’une
symbiose à forte valeur ajoutée ne manquent pas lorsque cette
collaboration est construite sur les bases de la complémentarité entre les
intelligences humaine et artificielle, comme nous l’avons vu dans le
chapitre 10.
QUEL SERA L’IMPACT DE L’IA

SUR L’ENVIRONNEMENT ?
L’augmentation phénoménale de la puissance de calcul, couplée à la
disponibilité d’une quantité de données de plus en plus importante, a
permis l’avènement du deep learning. Mais qui dit puissance de calcul
dit consommation énergétique. Si la victoire d’AlphaGo sur Lee Sedol
est incontestable, la décision de chacun de ses coups demandait…
50 000 fois plus d’énergie que le cerveau du champion coréen ! On peut
donc affirmer sans ambages que s’il y a bien un domaine où l’IA ne nous
égalera pas de sitôt, c’est l’efficacité énergétique. Le secteur numérique
engloutit déjà 10 % de la consommation mondiale d’énergie, et ce n’est
pas près de s’améliorer : les experts interrogés lors de la mission
Villani 38 estiment que cette part pourrait grimper jusqu’à 50 % d’ici 2030 !
En dépit de son aspect énergivore, l’IA offre quelques belles promesses

pour relever le défi de la transition énergétique. Éco-conception des
produits, optimisation du tri des déchets, détection des systèmes
défectueux, lutte contre le gaspillage, économie circulaire, et j’en passe :
la généralisation de la récolte et de l’analyse des données à l’échelle des
chaînes de production des différentes industries constitue une piste
prometteuse pour réduire notre empreinte carbone.
Citons quelques exemples prometteurs parmi tant d’autres. L’Agence

spatiale européenne utilise l’intelligence artificielle pour développer de
nouveaux alliages performants, durables et non toxiques 39. Du côté des
océans, des chercheurs du MIT ont créé le Soft Robotic Fish, un poisson
robotique capable d’observer l’impact de la pollution sur le
comportement des poissons sans les perturber dans leur environnement
naturel 40. La start-up française Ecojoko promet « 25 % d’économie
d’énergie à la maison » grâce à un algorithme de régulation des
appareils inutilement en veille ou mal réglés. Et on ne présente plus
l’application Blablacar, qui permet chaque jour à une centaine de
milliers de personnes de mettre à profit le covoiturage.
D’innombrables autres solutions sont encore en voie de développement,

comme les systèmes de signalisation intelligents et les voitures
autonomes qui promettent de fluidifier la circulation dans les villes et de
mutualiser les trajets. Mais l’obstacle financier et l’accessibilité à un
grand nombre de données demeurent pour le moment une gageure de
taille pour les petits acteurs. Et il faut garder à l’esprit que l’IA n’est pas
une solution miracle à tout, ni une excuse pour nous dédouaner vis-à-vis
de notre impact sur la planète. Sa marge d’action est principalement
restreinte à deux choses : faciliter l’analyse d’une situation donnée et
réduire les gaspillages, ce qui n’est qu’un premier pas pour enrayer la
dégradation de notre environnement. Entre transition numérique et
transition énergétique, une fois de plus, tout sera question d’équilibre et
de régulation…
CHAPITRE 12
COMMENT CONCEVOIR
UNE IA « ÉTHIQUE » ?
Nous avons étudié quatre grandes menaces incarnées par l’IA
dans le chapitre précédent. Pour faire face à ces dangers, de
nombreuses chantiers de réflexions ont été engagés. En 2017,
le médaillé Fields Cédric Villani a été chargé par le
gouvernement français de mettre sur pied un rapport sur
l’intelligence artificielle. En 2018, l’université de Montréal a
publié sa déclaration pour le développement d’une IA
responsable, qui pose dix grands principes à suivre. Ces
principes sont repris dans le Partenariat mondial sur
l’intelligence artificielle, adopté en octobre 2019 par ces deux
pays pionniers que sont la France et le Canada. Quels sont
donc ces enjeux à garder en tête pour concevoir une IA
« éthique » ?
COMMENT RESPECTER
LA CONFIDENTIALITÉ DES DONNÉES ?
É
DONNÉES COMMERCIALES
Si la plupart des sites Internet et applications pour smartphone sont
accessibles gratuitement, méfiez-vous ! On n’a rien sans rien : la
contrepartie est nécessairement une collecte de vos données
personnelles. Celles-ci peuvent certes servir à adapter le contenu à vos
besoins, mais elles sont surtout exploitées à des fins publicitaires. Une
multitude de « courtiers de données » dont vous ne connaissez
probablement même pas le nom (Axciom, Nielsen, Experian…) s’occupe
d’acheter et revendre ces données à votre insu. Ces données permettent
aux compagnies de nous influencer à plusieurs égards :
• Consommation : avec les systèmes de recommandation d’Amazon,

Netflix et Spotify, on n’explore quasiment que les premiers résultats qui
nous sont présentés. Cela pose deux problèmes. D’une part, notre avis
est influencé par l’avis des autres consommateurs. Résultat : la
popularité du contenu tient moins à sa qualité qu’à des effets de
groupes. D’autre part, le système vous enferme dans le carcan de vos
propres goûts et intérêts, freinant toute curiosité et ouverture d’esprit.
• Opinions politiques : en 2018, le scandale Cambridge Analytica éclate.

Cette compagnie d’analyse de données britannique détourna les
données d’utilisateurs Facebook pour identifier les individus dont
l’opinion politique est la plus malléable. Elle leur présenta ensuite des
contenus susceptibles d’orienter leurs intentions de vote, favorisant
l’élection de Donald Trump à la présidentielle américaine et peut-être
même le Brexit…
Dans les années à venir, il sera peut-être possible de payer un

supplément pour éviter la collecte de données. Mais souhaite-t-on vivre
dans un monde où le droit à la vie privée est réservé aux utilisateurs
aisés ? Et même si le prix à payer reste modique, aura-t-on la lucidité de
se protéger ? Rien n’est moins sûr, à voir la complaisance avec laquelle
nous acceptons déjà de nous dévoiler.
DONNÉES MÉDICALES
Un sujet encore plus sensible est celui des données médicales. Tout
porte à croire que les méthodes intrusives de collecte des données
pourraient s’infiltrer jusque dans notre corps :
• Notre ADN : certains sites, comme ancestry.com, prennent pour

prétexte d’analyser la généalogie ou de prédire des risques de maladie
pour récupérer l’ADN des utilisateurs et construire une gigantesque
base de données. Ne vous laissez pas tenter, votre ADN est ce que vous
avez de plus personnel !
• Nos pensées : certaines compagnies comme Neuralink, sous

l’impulsion d’Elon Musk, proposent même d’implanter des puces dans le
cerveau. Si l’idée de départ est de permettre aux personnes paralysées de
contrôler leur smartphone par la pensée, le milliardaire controversé ne
cache pas son rêve transhumaniste de faire de cette technologie le
successeur du smartphone.
CONFIDENTIALITÉ DES DONNÉES

Certes, de larges bases de données publiques pourraient être un grand
atout pour la recherche, notamment en médecine. Mais rendre des
données publiques, même lorsqu’elles sont anonymes, est toujours
associé à un risque de divulgation d’informations personnelles.
L’ensemble des méthodes pour minimiser ce risque porte un nom : la
confidentialité différentielle.
Une étude récente 41 montre qu’on peut identifier n’importe quel individu
dans le monde de façon quasi certaine, seulement à partir d’une
quinzaine d’attributs démographiques : âge, sexe, nationalité… Un peu à
la manière d’Akinator, le « génie du web » qui identifie la personnalité
que vous avez en tête à partir de quelques questions. Inquiétant
lorsqu’on sait que les courtiers de données comme Acxiom détiennent
parfois plusieurs milliers d’attributs par individu…
De 2006 à 2009, Netflix organisait une compétition offrant un

million de dollars à quiconque pourrait améliorer son système de
recommandation de films. Mais la compétition fut annulée en 2010,
lorsque deux chercheurs parvinrent à ré-identifier une partie des
propriétaires des données à partir des commentaires qu’ils avaient
déposés.
Heureusement, des solutions existent face à ces dangers. D’une part, il

est possible d’instaurer des règlementations pour protéger les données
personnelles : c’est ce qui a été fait dans l’Union européenne avec le
Règlement général sur la protection des données (RGPD). D’autre
part, de plus en plus de start-up proposent des alternatives
respectueuses de la vie privée. En France, c’est le cas du moteur de
recherche Qwant, qui ne conserve aucune trace des requêtes, ou encore
de l’assistant vocal Snips, qui fonctionne sans connexion Internet.
COMMENT SE PROTÉGER DES BIAIS

DES DONNÉES ?
Dans l’imaginaire collectif, l’IA apparaît comme parfaitement objective.
Mais n’oubliez pas que l’IA apprend à partir de données, qui sont elles-
mêmes subjectives. Elle reproduit sans discernement les biais qui s’y
cachent, au risque de les renforcer. Toute procédure visant à atténuer ces
biais, telle la discrimination positive, lui paraîtrait aberrante : comme
elle ne s’inspire que du passé, sa vision tend à être conservatrice. Elle
reflète le monde tel qu’il est, et non tel qu’on voudrait qu’il soit…
Prenons le cas de la justice prédictive, dont le principe est de calculer la

décision juridique la plus probable à partir des statistiques de cas
similaires observés antérieurement. Un exemple emblématique est celui
des algorithmes qui estiment la probabilité de récidive d’un criminel à
partir d’un certain nombre de caractéristiques (crime commis, genre,
nationalité…) dans le but de déterminer une durée d’emprisonnement. Il
apprend à partir des statistiques qu’on lui donne pour ces
caractéristiques. Imaginons qu’une certaine nationalité ait
statistiquement un taux de récidive plus élevé. Pas de cadeau chez les
algorithmes : tout individu de cette nationalité serait davantage
soupçonné de récidive, ce qui en plus d’être discriminatoire alimente le
cercle vicieux ! Un tel exemple est donné par le logiciel COMPAS,
largement utilisé par la police américaine pour décider du sort des
criminels. De même, Amazon a été accusé (et a reconnu) avoir utilisé un
algorithme de recrutement qui défavorisait les femmes, à compétences
égales avec les hommes 42.
Les algorithmes de traitement de texte peuvent également être un

puissant révélateur des biais contenus dans notre langage. Souvenez-
vous qu’en représentant des mots par des vecteurs, on peut facilement
changer le genre d’un mot (changer « roi » en « reine »). Mais quand on
essaye de féminiser le mot « docteur », on tombe hélas sur le mot
« infirmière »…
Une illustration de l’influençabilité de l’IA fut donnée par le robot
conversationnel Tay de Microsoft, censé interagir de manière ludique
avec des adolescents sur Twitter. En quelques heures, de malveillants
internautes venus tester ses limites réussirent à faire déraper le naïf
chatbot, qui réalisa rapidement que la meilleure manière de faire réagir
la communauté est de toucher au point Godwin. Ainsi lit-on : « Bush
est responsable du 11 Septembre et Hitler aurait fait un meilleur boulot
43
que le singe que nous avons actuellement. »
Ce n’est pas tout. Les algorithmes reflètent non seulement les biais des
données, mais également ceux de leurs concepteurs, majoritairement
masculins et de peau blanche. Ainsi, on peut déplorer que les
algorithmes de reconnaissance faciale fonctionnent moins bien pour les
femmes et les personnes à la peau noire, par manque de données
d’entraînement 44.
Cependant, n’oublions pas une chose. Les biais de l’IA ne sont que le
reflet des biais humains. Avant de discréditer les algorithmes, il faut
balayer devant sa porte et se demander si leur jugement est plus ou
moins biaisé que le nôtre ! Le leur a également l’avantage de ne pas être
influencé par des facteurs externes. À titre d’exemple, des études
montrent que les décisions des juges humains sont bien plus clémentes
en début qu’en fin de journée 45 !
COMMENT ÉLABORER
UNE IA EXPLICABLE ?
É
LES RESPONSABILITÉS DE L’INTELLIGENCE
ARTIFICIELLE
L’IA sera inévitablement amenée à avoir de plus en plus de
responsabilité dans les décisions. On peut distinguer deux types de
scénarios.
Dans le premier scénario, l’algorithme aide à la décision. Le plus

souvent, l’humain garde le dessus sur l’IA, et prend la décision finale.
Mais alors, quel poids doit-on accorder aux conseils de l’IA ? Imaginez
par exemple qu’une lésion paraisse totalement bénigne pour un médecin
mais que l’algorithme indique que la probabilité qu’elle soit maligne est
de 99 %. Devra-t-il croire l’algorithme et opter pour une opération
lourde ?
L’histoire nous apprend qu’il ne faut jamais accorder une confiance

aveugle aux algorithmes ! Durant la nuit du 25 au 26 septembre 1983,
en pleine guerre froide, un algorithme soviétique détecta une salve de
missiles nucléaires en provenance de bases militaires américaines.
Stanislav Petrov, ingénieur en charge de la situation, avait quelques
minutes pour envoyer une salve de missiles nucléaires en représailles,
engendrant de manière quasi certaine une guerre nucléaire. Il décida de
désobéir à la procédure et de signaler une fausse alerte à ses
supérieurs, ce qui était effectivement le cas.
Dans le second scénario, l’algorithme est autonome dans ses décisions.

Ce cas pose des questions éthiques extrêmement complexes, opposant
souvent l’individu et le collectif. Une voiture autonome doit-elle avant
tout protéger les passagers qu’elle transporte, ou doit-elle être prête à les
sacrifier pour sauver une dizaine de piétons ? Les algorithmes de
diagnostics médicaux doivent-ils mettre la santé du patient avant tout et
prescrire sans hésiter des antibiotiques, ou doivent-ils également
prendre en compte les effets négatifs de ces derniers sur la santé
publique ?
Si l’on veut donner des responsabilités à un algorithme, il est

extrêmement important que l’on puisse savoir quel mécanisme l’a mené
à prendre telle ou telle décision : c’est ce qui s’appelle faire preuve
d’interprétabilité. Et idéalement, que ce mécanisme soit
compréhensible de notre point de vue : c’est ce qui s’appelle faire preuve
d’explicabilité. Comme le répétait Einstein (et d’autres avant lui), si on
ne peut pas expliquer quelque chose simplement, c’est qu’on ne l’a pas
bien compris !
TROUVER UN COMPROMIS ENTRE PUISSANCE

ET EXPLICABILITÉ
Malheureusement, l’explicabilité est le talon d’Achille des réseaux de
neurones artificiels, d’où leur surnom de « boîtes noires ». Reprenons le
cas de la détection de cancer de la peau, pour lequel il existait deux
possibilités : fournir à l’algorithme les caractéristiques ABCDE du grain
de beauté (asymétrie, bords, couleur, diamètre, évolution), ou lui fournir
directement une photo. Dans le premier cas, on peut utiliser un
algorithme simple et explicable comme le perceptron, qui apprendra un
coefficient pour chaque caractéristique. Dans le second cas, il faudra
faire appel à un algorithme complexe tel qu’un réseau de neurones
convolutif.
Soyons clairs : le réseau convolutif aura probablement de bien

meilleures performances que le pauvre perceptron. Mais les coefficients
appris par ce dernier nous donneront des informations précieuses. Si les
prédictions de l’algorithme sont bonnes, on pourra identifier les
caractéristiques les plus distinctives d’un mélanome (celles dont les
coefficients sont les plus élevés). Si les prédictions de l’algorithme sont
mauvaises, on pourra facilement comprendre pourquoi il s’est trompé.
En imposant à l’algorithme de voir le monde de la même manière que
nous, on lui permet de nous expliquer ce qu’il fait.
À l’inverse, le réseau convolutif construit sa propre vision du monde,

incompréhensible pour nous. Un exemple frappant illustre les risques
d’une telle approche : il est assez simple de berner un réseau convolutif,
aussi puissant qu’il soit, en modifiant les images d’une manière
imperceptible à l’œil nu, mais suffisamment rusée pour induire
l’algorithme en erreur. Voyez la figure qui suit : dans la deuxième image,
indistinguable de la première à l’œil nu, l’algorithme, qui ne se trompait
pourtant quasi jamais, affirme sans la moindre hésitation qu’il voit un
gibbon ! C’est ce qui s’appelle un exemple contradictoire, et le
renforcement des réseaux de neurones artificiels contre cette faille est
un sujet de recherche actif. S’il s’agissait d’un algorithme de
reconnaissance faciale visant à identifier des criminels, la conséquence
d’une telle confusion ne serait pas un panda usurpé, mais une erreur
judiciaire !
IMAGE CONTRADICTOIRE 46. La photographie du bas s’obtient par une modification imperceptible
des pixels de celle du haut, visant à induire l’algorithme en erreur. Lui qui ne se trompe presque
jamais affirme sans l’ombre d’un doute (avec une certitude de 99 %) y voir un gibbon.
On voit apparaître de nouveau un dilemme : les algorithmes complexes

ont tendance à être plus puissants mais moins interprétables et
explicables. Feriez-vous confiance à un docteur qui ne se trompe jamais
dans ses pronostics, mais qui ne saurait pas les justifier ?
Une piste pour trouver un compromis dans ce dilemme est de combiner

la puissance de l’IA connexionniste avec l’explicabilité de l’IA
symbolique. Souvenez-vous, l’IA symbolique consiste à programmer
l’algorithme explicitement, plutôt que le laisser apprendre
empiriquement à partir d’exemples. Son raisonnement logique et exact
est exempt de toute marge d’erreur : il n’y a jamais de surprise, la
machine fait ce qu’on lui dit de faire ! Dans le cas d’un algorithme de
conduite autonome, on pourrait par exemple laisser un réseau de
neurones artificiel s’occuper de la conduite tout en imposant quelques
règles explicites : ne jamais aller au-dessus de la vitesse maximale
autorisée, toujours ralentir lorsqu’un piéton se trouve à moins de
10 mètres…
COMMENT ÉLABORER UNE IA VERTE ?

Face à la menace du dérèglement climatique et à des algorithmes
toujours plus énergivores, il est urgent de réfléchir à des solutions pour
réduire l’impact environnemental de l’IA décrit à la fin du chapitre 11.
Une des pistes d’amélioration les plus prometteuses concerne le

hardware, c’est-à-dire le support physique sur lequel sont réalisés les
calculs. Comme nous l’avons vu au cours du chapitre 1, l’usage des
cartes graphiques a permis l’explosion du deep learning, alors que celles-
ci n’étaient, à l’origine, pas du tout prévues pour cet usage. Pourquoi ne
pas aller plus loin en gravant directement le fonctionnement des réseaux
de neurones dans le silicium ? C’est le principe employé par les puces
neuromorphiques. Pour s’approcher de l’efficacité extraordinaire de
notre cerveau, elles miment le fonctionnement des neurones réels, qui
communiquent en émettant de brèves impulsions électriques.
Une autre piste est de réduire directement le nombre de calculs

effectués. Pour cela, on peut mutualiser les entraînements de différents
réseaux de neurones à l’aide du transfer (voir chapitre 6). On peut
également réduire la taille des algorithmes mis en jeu, c’est-à-dire faire
de la compression de modèle. Pour les réseaux de neurones artificiels,
cela revient à utiliser moins de neurones, par exemple en coupant les
connexions synaptiques de faible influence, procédé connu sous le nom
de pruning (élagage).
Comment puis-je réduire ma propre empreinte numérique ?
Préférer le téléchargement au streaming.
Pour le streaming musical, préférer le format audio (Spotify) au
format vidéo (YouTube). Laisser tourner de la musique en arrière-
plan sur YouTube télécharge inutilement des volumes importants
d’image.
Éviter le stockage cloud (Dropbox), préférer le stockage local sur
disque dur.
Enregistrer les sites fréquemment visités dans les favoris plutôt que
passer par un moteur de recherche systématiquement.
Opter pour le moteur de recherche Ecosia, qui utilise une bonne
partie de ses revenus pour planter des arbres.
CHAPITRE 13
L’IA PEUT-ELLE SERVIR

L’HUMANITÉ ?
Si la montée en puissance de l’IA s’accompagne
nécessairement de multiples dangers, il ne faut pas perdre de
vue ce qu’elle est capable d’apporter à l’humanité. Au-delà de
ses applications dans la vie de tous les jours, l’IA peut être
notre alliée dans les luttes les plus nobles.
L’IA PEUT-ELLE VENIR EN AIDE

AUX PERSONNES EN SITUATION
DE HANDICAP ?
En 2018, l’Organisation mondiale pour la santé relevait que parmi le
milliard de personnes dans le monde en situation de handicap, seuls
10 % possédaient des outils pour être assistés au quotidien 47.
Le deep learning a permis aux algorithmes de percevoir et interagir avec

notre monde d’une manière inimaginable auparavant. À l’heure où les
problématiques d’accessibilité et d’inclusivité demeurent un enjeu
sociétal majeur, sa puissance peut être mise à profit dans différents
contextes liés au handicap.
• Cécité. La vision est un des domaines d’excellence du deep learning. Il

existe déjà une pléthore d’applications pour smartphone destinées à
venir en aide aux personnes malvoyantes ou non-voyantes au quotidien.
Le géant de l’informatique Microsoft est très impliqué dans le sujet, et
son interprète visuel Seeing AI décrit auditivement les images qu’on lui
fournit grâce à la reconnaissance visuelle. Mais on peut également citer
l’application Aira, qui propose une assistance humaine sur demande, ou
encore Digit-Eyes, qui permet d’identifier des produits dans les
supermarchés grâce à un système de scan et d’informations auditives.
• Surdité. Le son et le texte comptent également parmi les spécialités du

deep learning. Alors que Seeing AI permet de passer de l’image au son
pour les malvoyants, l’application Hearing AI, également développée
par Microsoft, permet de faire l’inverse pour les malentendants, en leur
proposant une illustration graphique de leur environnement sonore. Il
existe également des applications pour les aider à interpréter le langage
des signes (GnoSys) ou encore à lire sur les lèvres (LipNet). La société
danoise Oticon, pionnière dans l’utilisation de l’IA au service de
l’audiologie, a même développé une application, baptisée Kaizn, pour
adapter automatiquement les réglages d’un appareil auditif aux
préférences de l’utilisateur et à son environnement sonore.
• Diabète. D’ici quelques années, les personnes souffrant de diabète de

type 1 verront très probablement leur quotidien amplement facilité
grâce à l’insulinothérapie automatisée. La start-up française Diabeloop
développe un pancréas artificiel assurant une régulation automatique de
la quantité d’insuline dans le corps grâce à un capteur de glycémie – à
placer sur le ventre – et à une pompe à insuline – à fixer sur le bras.
Toutes les cinq minutes, un algorithme calcule le taux de glycémie du
patient et la dose d’insuline optimale à injecter, tout en transmettant ces
informations à une application pour smartphone.
• Prothèses. Au printemps 2016, Nathan Copeland devint le premier

patient tétraplégique du monde à retrouver le sens du toucher grâce à
un bras robotique commandé par un implant cérébral 48. Ce système,
développé par une équipe de recherche de l’université américaine de
Pittsburgh, relève de la prouesse technologique, et tout porte à croire
que les améliorations de l’interface homme-machine permettront de
démocratiser ces prothèses bioniques.
• Recrutement. Grâce à ses algorithmes de matching, le Salon de

recrutement en ligne Hello Handicap entend faciliter l’accès à l’emploi
des travailleurs en situation de handicap grâce à un système
entièrement digital offrant 100 % de correspondances entre les
compétences du travailleur, sa personnalité et les offres d’emploi
disponibles.
L’IA PEUT-ELLE FAIRE AVANCER

LA RECHERCHE SCIENTIFIQUE ?
Chaque jour, les bases de données scientifiques s’enrichissent de
volumes immenses de données, collectées par des hôpitaux, des
télescopes ou encore des accélérateurs de particules. Or le machine
learning est un outil de choix pour naviguer dans les océans de données
bruitées issus d’observations, et débusquer les motifs et signaux qui s’y
cachent.
• Lutte contre le cancer. L’IA y apporte une grande bouffée d’espoir.

D’une part, elle réalise des pronostics plus fiables que les meilleurs
experts pour certains types de cancers, comme l’a encore montré
fin 2019 la start-up française Owkin dans le cas du mésothéliome 49.
D’autre part, elle représente un puissant outil d’analyse génétique, qui
pourrait permettre de mieux comprendre le cancer et de proposer des
traitements individualisés. Notre code génétique, facilement accessible
de nos jours grâce aux progrès du séquençage, est en effet écrit sous la
forme d’une longue séquence de lettres : A, C, T et G. Ce langage est
incompréhensible pour les humains, mais l’IA pourrait y détecter des
motifs caractéristiques, tout comme elle arrive à identifier vos traits dans
l’inextricable séquence de zéros et de uns représentant une image de
votre visage.
• Physique des particules. Dans de gigantesques accélérateurs de

particules, comme le grand collisionneur de hadrons (LHC en anglais)
du CERN, près de Genève, on envoie des particules à des vitesses
phénoménales les unes contre les autres, dans le but que leur collision
libère suffisamment d’énergie pour produire de nouvelles particules
élémentaires. C’est ainsi qu’a été découvert le boson de Higgs en 2013,
une importante pièce manquante dans le puzzle de la physique
théorique. Concrètement, on détecte et identifie tous les résidus d’une
collision, et on espère trouver la particule que l’on cherche. Mais
souvent, celle-ci est très rare et une telle entreprise revient à chercher
une aiguille dans une botte de foin ! Les physiciens font ainsi
massivement appel à des réseaux de neurones pour aider à la détection.
• Astrophysique. Des télescopes de plus en plus puissants

cartographient le ciel en permanence, à la recherche de divers objets
célestes. Encore et toujours, on fait appel au machine learning pour
classifier les objets célestes, dont les signaux sont lointains et bruités :
étoiles, galaxies, exoplanètes… En avril 2019, une collaboration
d’astrophysiciens publiait la première « photo » d’un trou noir, prise
grâce à l’Event Horizon Telescope 50. Mais produire un tel cliché
s’apparente à résoudre un puzzle : les algorithmes ont dû recoller les
pièces récoltées par différents radiotélescopes aux quatre coins du
globe, et inventer les nombreuses pièces manquantes. À l’avenir, qui sait
si ce ne sera pas un réseau de neurones artificiel qui déchiffrera le
premier signal en provenance d’extraterrestres…
Image du trou noir au centre de la galaxie M87, prise par l’Event Horizon Telescope.
L’IA PEUT-ELLE RÉVOLUTIONNER

L’ÉDUCATION ?
Ah l’école française, cette forteresse imprenable… Si les robots n’ont pas
encore réussi à la pénétrer, l’intelligence artificielle, elle, a bel et bien
franchi la herse ! Et pour cause, le Partenariat d’innovation et
intelligence artificielle (P2IA) lancé par le ministère de l’Éducation
nationale avec la Caisse des dépôts place l’IA au cœur d’un nouveau
projet de recherche et développement très prometteur.
Plus précisément, il s’agit de financer le développement de six

« solutions » innovantes afin d’accompagner les élèves de cycle 2 (CP,
CE1 et CE2) dans leur apprentissage du français et des mathématiques.
La personnalisation et l’adaptation seront le noyau dur de cette nouvelle
phase de réforme des apprentissages fondamentaux. Et il est aisé d’en
comprendre les raisons. L’un des obstacles majeurs inhérents à
l’enseignement scolaire réside dans le fait que, pour des raisons
pratiques, le professeur a bien souvent affaire à une classe d’élèves dont
les socles de connaissances et les modes d’apprentissage sont très
variés. Par exemple, si les différents types de mémoire (visuelle, auditive,
kinesthésique,…) sont très bien répertoriés et faciles à identifier, on ne
peut stimuler préférentiellement l’un par rapport à l’autre chez l’enfant.
Ne vous méprenez pas : la diversité au sein des groupes d’élèves et les

interactions qui en découlent sont d’une richesse indéniable. Mais à
moins d’un miracle, le professeur ne peut se démultiplier autant de fois
qu’il a d’élèves dans sa classe pour s’adapter à chacun d’entre eux au
niveau du contenu des activités proposées et du rythme d’exécution du
programme. Et on ne connaît que trop bien les effets délétères des
classes de niveau, une pratique qui est à l’origine d’une ségrégation à la
fois sociale et scolaire, et demeure néanmoins très répandue dans les
établissements, malgré son interdiction.
L’intelligence artificielle a donc un grand rôle à jouer pour permettre au

corps enseignant d’adapter les contenus éducatifs aux besoins des
élèves et ainsi réduire autant que faire se peut l’échec scolaire.
L’assistant pédagogique Lalilo, application phare du projet P2IA, aide
ainsi plusieurs milliers d’instituteurs à individualiser leur enseignement
en classe pour un apprentissage de la lecture sur mesure, même une fois
les élèves rentrés à la maison.
L’ancrage adaptatif, dont la start-up française Domoscio est experte,

permet quant à lui de consolider les acquis assimilés et d’optimiser la
mémorisation grâce à la collecte de données liées à l’apprentissage et à
la mise en place d’un plan de révision calculé à la perfection en fonction
de la courbe d’oubli de chacun.
Bref, les possibilités d’approfondissement des méthodes d’enseignement

sont immenses et les start-up françaises n’en sont qu’à leurs débuts. La
bienveillance, l’empathie, la flexibilité cognitive et le jugement critique
des instituteurs seraient de toute évidence des qualités humaines bien
pénibles à reproduire par un système d’IA – et ce n’est pas à l’ordre du
jour, a priori. Mais la technologie est là, et il importe de ne pas fermer les
yeux sur le rôle d’auxiliaire formidable qu’elle peut jouer pour les
citoyens en devenir.
CONCLUSION
Cet ouvrage se veut une introduction concise et actuelle à cette chose
tentaculaire qu’est l’intelligence artificielle. Tous les pans de la société et
toutes les grandes problématiques du XXIe siècle sont dans sa sphère
d’influence, de la santé à l’environnement en passant par la démocratie.
Le lecteur assidu aura remarqué un contraste net entre le contenu des

trois premières parties de ce livre et la dernière. Les trois premières
avaient pour but de présenter de manière aussi claire que possible les
mécanismes qui se cachent derrière l’IA. La dernière partie, bien plus
exploratoire que didactique, ouvre plus de questions qu’elle n’en ferme :
elle se veut plutôt un catalyseur de curiosité. Chacun des sujets qui y
sont abordés aurait pu faire l’objet d’un ouvrage à part entière, écrit par
un spécialiste que je ne suis évidemment pas. Le lecteur me pardonnera
donc le caractère bref de cette partie qui, je l’espère, ne tombe pas
complètement dans la superficialité : son but est de proposer une mise
en bouche et d’inviter à aller plus loin.
Alors, que retenir de ces élucubrations ? Avant tout, que l’IA n’est pas de
ces inventions qui, comme l’imprimerie, ne rendront le monde que
meilleur. Elle n’est probablement pas non plus l’arme ultime qui causera
à elle seule la fin de l’humanité, comme on l’entend parfois. L’IA est l’un
de ces nouveaux outils très généraux, comme les ordinateurs et Internet,
qui accélèrent les choses, tantôt pour le bien de l’humanité, tantôt pour
son mal.
Qu’est-ce qui inquiète tant alors ? Premièrement, la nature encore

impénétrable des algorithmes que l’IA met en jeu. Les réseaux de
neurones artificiels sont d’une efficacité redoutable, mais ils sont avant
tout conçus pour fonctionner, et non pour expliquer comment.
Deuxièmement, sa vitesse d’évolution, qui déjoue les pronostics et
complique les tentatives de règlementation. Troisièmement, le contexte
instable dans lequel cette IA fait son apparition, marqué par la
confrontation de deux superpuissances aussi indétrônables
qu’inquiétantes : les États-Unis et la Chine. Si je m’estime privilégié de
vivre dans le siècle qui verra l’arrivée à maturité de l’IA, c’est parce que
j’ai la chance de vivre au sein de ce garde-fou qu’est l’Union européenne
qui, tout en essayant de rivaliser avec les deux superpuissances, semble
prendre ses dérives au sérieux.
À court terme, la promesse de l’IA est vraisemblablement un

accroissement de richesse, au risque cependant que celle-ci ne profite
qu’à une minorité bien informée. C’est pourquoi, et j’en reviens à mes
propos introductifs, il est primordial que l’IA soit mise à la portée de
tous, et que chacun fasse en retour l’effort de soulever son capot. Car
l’humanité est à une étape charnière de son histoire : en matière
d’intelligence artificielle, tout comme en matière d’écologie, chaque
individu, en tant que consommateur et citoyen, a un rôle à jouer dans le
choix du meilleur tournant possible.
GLOSSAIRE
IA symbolique : domaine de l’intelligence artificielle dont les
algorithmes suivent un ensemble de règles explicites.
Machine learning : domaine de l’intelligence artificielle dont les

algorithmes apprennent à partir de données.
IA connexionniste : sous-domaine du machine learning dans lequel les

algorithmes apprennent en ajustant des paramètres internes, comme
dans notre cerveau.
Apprentissage supervisé : mode d’apprentissage qui consiste à

entraîner un algorithme à partir de données étiquetées, par exemple des
images d’animaux avec une légende précisant de quelle espèce il s’agit.
Apprentissage non supervisé : mode d’apprentissage qui consiste à

entraîner un algorithme à partir de données non étiquetées, par exemple
des images d’animaux sans légende.
Apprentissage par renforcement : mode d’apprentissage qui consiste à

entraîner un algorithme en le punissant ou le récompensant en fonction
de ses interactions avec son environnement, par exemple ses coups lors
d’une partie d’échecs.
Généralisation : capacité de l’algorithme à garder de bonnes

performances sur des données qu’il n’a jamais vues lors de
l’entraînement.
Fonction de perte : sorte de score qui évalue les performances d’un

algorithme sur un jeu de données. Plus il est élevé, moins les
performances sont bonnes.
Hyperparamètres : ensemble des réglages dont on dispose pour

configurer un algorithme avant qu’il commence à apprendre.
Curseurs : terme employé dans ce livre pour désigner l’ensemble des

paramètres internes que l’algorithme ajuste automatiquement pour faire
diminuer sa fonction de perte lors de l’apprentissage.
Descente de gradient : méthode qui consiste à ajuster les curseurs de

l’algorithme par petits pas successifs.
Overfitting : tendance de l’algorithme à mal généraliser lorsqu’il a

naïvement mémorisé les données d’entraînement.
Régularisation : méthode pour combattre l’overfitting qui consiste à

affaiblir l’algorithme d’apprentissage.
Classification : type de tâche qui consiste à prédire l’appartenance d’un

objet à une catégorie parmi plusieurs.
Régression : type de tâche qui consiste à prédire la valeur d’une

variable.
Deep learning : sous-domaine du machine learning dans lequel les

algorithmes fonctionnent sur le principe des réseaux de neurones
artificiels.
Perceptron : modèle mathématique d’un neurone, servant de brique de

base aux réseaux de neurones artificiels.
Réseau de neurones artificiel : empilement de couches de perceptrons,
dont le fonctionnement modélise celui du cerveau humain.
Réseau de neurones convolutif : type de réseau de neurones artificiel

qui étudie les données parcelle par parcelle, particulièrement utilisé
dans le domaine de l’image.
Réseau de neurones récurrent : type de réseau de neurones artificiel

qui étudie les données séquentiellement, particulièrement utilisé dans le
domaine du langage.
Interprétabilité : capacité d’un algorithme à rendre son processus de

prise de décision transparent.
Explicabilité : capacité d’un algorithme à rendre son processus de prise

de décision transparent et intelligible.
Sensibilité : capacité d’un algorithme de classification à donner un

résultat positif (signaler que le patient porte le cancer) lorsqu’une
hypothèse est vérifiée (le patient porte le cancer).
Spécificité : capacité d’un algorithme de classification à donner un

résultat négatif (signaler que le patient ne porte pas le cancer)
lorsqu’une hypothèse n’est pas vérifiée (le patient ne porte pas le
cancer).
BIBLIOGRAPHIE
1. Kasparov, Garry. Deep Thinking: Where Machine Intelligence Ends
and Human Creativity Begins. New York : Public Affairs, 2017.
2. Borges, Jorge Luis. « Funes ou la mémoire ». Fictions. Paris :

Gallimard, 1957, p. 109-118.
3. Surowiecki, James. The Wisdom of Crowds. New York : Anchor, 2005.

(La sagesse des foules. Paris : JC Lattès, 2008.)
4. Braun, Elisa. La viralité d’une fausse vidéo d’Obama met en lumière le

phénomène du « deep fake ». Le Figaro. [En ligne] 20 avril 2018.
https://www.lefigaro.fr/secteur/high-tech/2018/04/20/32001-
20180420ARTFIG00134-la-viralite-d-une-fausse-video-d8216obama-met-
en-lumiere-le-phenomene-du-deep-fake.php.
5. Six, Nicolas. Une vidéo truquée de Mark Zuckerberg façon

« deepfake » éprouve les limites d’Instagram. Le Monde. [En ligne]
13 juin 2019.
https://www.lemonde.fr/pixels/article/2019/06/13/une-video-truquee-de-
mark-zuckerberg-facon-deepfake-eprouve-les-limites-d-
instagram_5475600_4408996.html.
6. Gatys, Leon, Ecker, Alexander et Bethge, Matthias. A neural

algorithm of artistic style. 2015, arXiv:1508.06576.
7. Bahdanau, Dzmitry, Cho, Kyunghyun et Bengio, Yoshua. Neural
machine translation by jointly learning to align and translate. 2014,
arXiv:1409.0473.
8. Lee, Dave. Amazon promises fix for creepy Alexa laugh. [En ligne]
7 mars 2018. https://www.bbc.co.uk/news/technology-43325230.
9. Cully, Antoine, et al. « Robots that can adapt like animals ». 2015,
Nature, p. 503.
10. Lesne, Corine.

https://www.lemonde.fr/economie/article/2018/03/19/etats-unis-une-
pietonne-meurt-renversee-par-un-vehicule-autonome-d-
uber_5273326_3234.html
11. Kahneman, Daniel. Thinking, Fast and Slow. Londres : Macmillan,

2011.
12. Chahuneau, Louis. Comment les robots sexuels veulent s’imposer

dans votre vie. Le Point. [En ligne] 25 janvier 2019.
https://www.lepoint.fr/innovation/comment-les-robots-sexuels-veulent-
s-imposer-dans-votre-vie-24-01-2019-2288589_1928.php.
13. Combier, Étienne. Quand les traders sont remplacés par des robots.
Les Échos. [En ligne] 9 février 2017.
https://www.lesechos.fr/2017/02/quand-les-traders-sont-remplaces-par-
des-robots-162124.
14. Untersinger, Martin. Réussite contestée d’un ordinateur au

légendaire test de Turing. Le Monde. [En ligne] 9 juin 2014.
https://www.lemonde.fr/sciences/article/2014/06/09/un-ordinateur-
reussit-le-legendaire-test-de-turing_4434781_1650684.html.
15. Cygler, Marine. Mélanome : l’IA fait mieux que l’œil des experts.
Medscape. [En ligne] 21 juin 2018.
https://francais.medscape.com/voirarticle/3604219.
16. Barthélémy, Pierre. AlphaZero, algorithme prodige de l’échiquier. Le

Monde. [En ligne] 19 décembre 2017.
https://www.lemonde.fr/sciences/article/2017/12/19/alphazero-
algorithme-prodige-de-l-echiquier_5231860_1650684.html.
17. Ganascia, Jean-Gabriel. Le Mythe de la singularité. Faut-il craindre

l’intelligence artificielle ? Paris : Le Seuil, 2017.
18. Antonetti, Joanna. Semiconducteurs : le plus petit transistor du

monde mis au point à Taïwan. Diplomatie.gouv.fr. [En ligne]
14 janvier 2016.
https://www.diplomatie.gouv.fr/fr/politique-etrangere-de-la-
france/diplomatie-scientifique-et-universitaire/veille-scientifique-et-
technologique/taiwan/article/semiconducteurs-le-plus-petit-transistor-
du-monde-mis-au-point-a-taiwan .
19. Szigeti, Balzs, et al. "OpenWorm: an open-science approach to

modeling Caenorhabditis elegans". 2014, Frontiers in Computational
Neuroscience, vol. 8, p. 137.
20. Wang, Dayong, et al. Deep larning for identifying metastatic breast
cancer. 2016, arXiv:1606.05718.
21. Pressman, Aaron. How AI is changing how we build things. Fortune.

[En ligne] 22 octobre 2018.
https://fortune.com/2018/10/22/artificial-intelligence-ai-manufacturing/.
22. Pétréault, Clément. Cédric Villani : « Ne craignez pas l’intelligence

artificielle, mais les humains qui seront derrière. » Le Point. [En ligne]
4 janvier 2018.
https://www.lepoint.fr/high-tech-internet/cedric-villani-ne-craignez-pas-
l-intelligence-artificielle-mais-les-humains-qui-seront-derriere-04-01-
2018-2184056_47.php.
23. Chaperon, Isabelle. Les robots tueurs menacent-ils notre sécurité ?

Le Monde. [En ligne] 21 novembre 2017.
https://www.lemonde.fr/economie/article/2017/11/21/les-robots-tueurs-
menacent-ils-notre-securite_5218191_3234.html.
24. Hérard, Pascal. Robots tueurs autonomes : malgré une mise en

garde de l’ONU, leur développement continue. TV5MONDE. [En ligne]
2 novembre 2019.
https://information.tv5monde.com/info/robots-tueurs-autonomes-
malgre-une-mise-en-garde-de-l-onu-leur-developpement-continue-
243991.
25. Tual, Morgane. Stephen Hawking et Elon Musk réclament

l’interdiction des « robots tueurs ». Le Monde. [En ligne] 27 juillet 2015.
https://www.lemonde.fr/pixels/article/2015/07/27/intelligence-
artificielle-hawking-musk-et-chomsky-reclament-l-interdiction-des-
armes-autonomes_4701102_4408996.html.
26. Untersinger, Martin. Stuxnet : comment les États-Unis et Israël ont

piraté le nucléaire iranien. L’Obs. [En ligne] 17 novembre 2016.
https://www.nouvelobs.com/rue89/rue89-
internet/20120604.RUE0433/stuxnet-comment-les-etats-unis-et-israel-
ont-pirate-le-nucleaire-iranien.html.
27. Leloup, Damien. Cyberattaque : ce que l’on sait de WannaCry, le

logiciel de racket qui a touché des dizaines de pays. Le Monde. [En
ligne] 13 mai 2017.
https://www.lemonde.fr/pixels/article/2017/05/13/ce-que-l-on-sait-du-
logiciel-de-racket-qui-a-paralyse-les-hopitaux-britanniques-et-touche-
des-dizaines-de-pays_5127351_4408996.html.
28. Shepherd, Christian. La police chinoise utilise le big data pour des
arrestations préventives au Xinjiang. Reuters. [En ligne] 27 février 2018.
https://fr.reuters.com/article/technologyNews/idFRKCN1GB0QA-
OFRIN.
29. Piermont, Éric. Nice va tester la reconnaissance faciale sur la voie

publique. Le Monde. [En ligne] 18 février 2019.
https://www.lemonde.fr/societe/article/2019/02/18/nice-va-tester-la-
reconnaissance-faciale-sur-la-voie-publique_5425053_3224.html.
30. Rioux, Philippe. Grand débat : la démocratie à l’épreuve de

l’intelligence artificielle. La Dépêche. [En ligne] 24 février 2019.
https://www.ladepeche.fr/2019/02/24/grand-debat-la-democratie-a-
lepreuve-de-lintelligence-artificielle,8034378.php.
31. Tual, Morgane. « Deepfake » : dupée par une voix synthétique, une
entreprise se fait dérober 220 000 euros. Le Monde. [En ligne]
6 septembre 2019.
https://www.lemonde.fr/pixels/article/2019/09/06/deepfake-dupee-par-
une-voix-synthetique-une-entreprise-se-fait-derober-220-000-
euros_5507365_4408996.html.
32. Devillard, Arnaud. Facebook lance un concours de technologie anti-

deepfake. Sciences et avenir. [En ligne] 13 décembre 2019.
https://www.sciencesetavenir.fr/high-tech/informatique/facebook-initie-
un-concours-de-technologie-anti-deepfake_139829.
33. Leloup, Damien. En Birmanie, l’échec de Facebook contre l’incitation

à la haine et les fausses informations. Le Monde. [En ligne] 16 août 2018.
https://www.lemonde.fr/pixels/article/2018/08/16/en-birmanie-l-echec-
de-facebook-contre-l-incitation-a-la-haine-et-les-fausses-
informations_5343078_4408996.html.
34. Signoret, Perrine. Censure de L’Origine du monde : une faute de

Facebook reconnue, mais pas sur le fond. Le Monde. [En ligne]
15 mars 2018.
https://www.lemonde.fr/pixels/article/2018/03/15/censure-de-l-origine-
du-monde-une-faute-de-facebook-reconnue-mais-pas-sur-le-
fond_5271666_4408996.html.
35. Marissal, Pierric. 47 % des emplois seraient automatisables d’ici

20 ans. L’Humanité. [En ligne] 14 août 2014.
https://www.humanite.fr/47-des-emplois-seraient-automatisables-dici-20-
ans-549348.
36. Lenoir, Luc. Une étude affirme que 85 % des emplois de 2030
n’existent pas aujourd’hui. Le Figaro. [En ligne] 17 juillet 2017.
https://www.lefigaro.fr/conjoncture/2017/07/17/20002-
20170717ARTFIG00212-une-etude-affirme-que-85-des-emplois-de-2030-n-
existent-pas-aujourd-hui.php.
37. Zema, Alexis. Amazon utilise des logiciels pour surveiller la

productivité de ses employés, et les licencier. Le Figaro. [En ligne]
26 avril 2019. https://www.lefigaro.fr/secteur/high-tech/amazon-utilise-
des-logiciels-pour-surveiller-la-productivite-de-ses-employes-et-les-
licencier-20190426.
38. Villani, Cédric. Donner un sens à l’intelligence artificielle. AI for

Humanity. [En ligne] 2018.
https://www.aiforhumanity.fr/pdfs/9782111457089_Rapport_Villani_acce
ssible.pdf.
39. Gamberini, Giulietta. Comment l’intelligence artificielle peut

accélérer la transition circulaire. La Tribune. [En ligne] 4 juillet 2017.
https://www.latribune.fr/entreprises-finance/industrie/energie-
environnement/comment-l-intelligence-artificielle-peut-accelerer-la-
transition-circulaire-804713.html.
40. Wasserman, Maïa. L’exploration sous-marine grâce à un poisson-

robot. Le Parisien. [En ligne] 5 septembre 2018.
http://www.leparisien.fr/high-tech/l-exploration-sous-marine-grace-a-
un-poisson-robot-05-09-2018-7869036.php.
41. Rocher, Luc. Données anonymes… bien trop faciles à identifier. The
Conversation. [En ligne] 17 septembre 2019.
http://theconversation.com/donnees-anonymes-bien-trop-faciles-a-
identifier-123157.
42. Dont, Barthélemy. Amazon a dû se débarrasser d’une intelligence

artificielle sexiste. Slate. [En ligne] 10 octobre 2018.
http://www.slate.fr/story/168413/amazon-abandonne-intelligence-
artificielle-sexiste.
43. Hirel, Judikael. Même un robot peut devenir raciste et antisémite. Le

Point. [En ligne] 25 mars 2016.
https://www.lepoint.fr/high-tech-internet/meme-les-robots-peuvent-
devenir-racistes-et-antisemites-25-03-2016-2027867_47.php.
44. Lohr, Steve. Facial recognition is accurate, if you’re a white guy. The
New York Times. [En ligne] 9 février 2018.
https://www.nytimes.com/2018/02/09/technology/facial-recognition-
race-artificial-intelligence.html.
45. Danziger, Shai, Levav, Jonathan et Avnaim-Pesso, Liora.

"Extraneous factors in judicial decisions". 2011, Proceedings of the
National Academy of Sciences, p. 6889-6892.
46. Goodfellow, Ian, Shlens, Jonathon et Szegedy, Christian.
Explaining and harnessing adversarial examples. 2014, arXiv:1412.6572.
47. Anonyme. Assistive technology. Site de l’Organisation mondiale de

la santé. [En ligne] 18 mai 2018.
https://www.who.int/en/news-room/fact-sheets/detail/assistive-
technology.
48. Jalinière, Hugo. Un tétraplégique retrouve le sens du toucher par

l’intermédiaire d’une prothèse. Sciences et avenir. [En ligne]
17 octobre 2016.
https://www.sciencesetavenir.fr/sante/cerveau-et-psy/video-un-
tetraplegique-retrouve-le-sens-du-toucher-par-l-intermediaire-d-un-bras-
robotise_107513.
49. Courtiol, Pierre et al. "Deep learning-based classification of

mesothelioma improves prediction of patient outcome". 2019, Nature,
p. 1519-1525.
50. Akiyama, Kazunori et al. First M87 Event Horizon Telescope results.
IV. Imaging the central supermassive black hole. 2019, The
Astrophysical Journal Letters, vol. 875, p. L4.
POUR ALLER PLUS LOIN

Fry, Hannah. Hello World: How to be Human in the Age of the Machine.
New York : Random House, 2018.
Collectif. Intelligence artificielle : enquête sur ces technologies qui

changent nos vies. Paris : Flammarion, 2018.
Harari, Yuval Noah et Dauzat, Pierre-Emmanuel. 21 leçons pour le

21e siècle. Paris : Albin Michel, 2018.
Harari, Yuval Noah. Homo Deus : une brève histoire du futur. Paris :
Albin Michel, 2016.
INDEX
Ada Lovelace, 24
Alan Turing, 25, 130
algorithme, 17
algorithme d’apprentissage, 21, 76, 86
algorithme glouton, 120
algorithmes à base de règles, 22, 37
algorithmes évolutionnaires, 66
algorithmes génératifs, 98, 99, 100, 101
AlphaGo, 32, 58, 117, 120, 122, 133, 134, 135, 149
analyse en composantes principales, 76
apprentissage auto-supervisé, 54, 55
apprentissage non supervisé, 49, 51, 52, 53, 54, 76
apprentissage par renforcement, 49, 51, 52, 53, 54, 119, 120, 121
apprentissage semi-supervisé, 54
apprentissage supervisé, 49, 50, 52, 53, 54, 55, 60, 134
arbre décisionnel, 72
ARIMA, 71
attention, 111, 112, 113
autocorrélation, 71
auto-encodeurs, 77
auto-encodeurs variationnels, 99
bits, 18
Charles Babbage, 24
classification, 50, 64, 86
clustering, 78, 79
compression de modèle, 162
computationnalisme, 24
conférence de Dartmouth, 26
confidentialité différentielle, 154
connexionnistes, 23, 26, 28, 30, 39
couche décisionnelle, 93
couches extractrices, 93
décodeur, 100, 101, 112, 113
deep learning, 21, 22, 23, 28, 29, 30, 43, 47, 61, 69, 85, 86,
90, 91, 92, 95, 105, 117, 121, 133, 148, 161, 164
deep Q-networks, 121
Deep Blue, 29, 30, 32, 133
descente du gradient, 43, 44
dilemme biais-variance, 46, 47, 48
dilemme exploration-exploitation, 118, 119
discriminateur, 99
données d’entraînement, 31, 45, 47, 51, 61, 67, 157
données de test, 45, 67
Elon Musk, 142, 153
encodeur, 99, 100, 101, 112
exemple contradictoire, 160
explicabilité, 70, 158, 159, 161
exploration contextuelle, 119
exploration gloutonne, 118
feature engineering, 61, 92
filtre convolutif, 96, 102
fonction d’activation, 90
fonction de perte, 41, 42, 43, 44, 45, 46, 49, 63, 64, 103
forêts aléatoires, 73, 74
Frank Rosenblatt, 26
GAN, 99, 100
généraliser, 39, 45, 47, 63
générateur, 98, 99, 112
Geoffrey Hinton, 28, 32
hardware, 161
hiver de l’IA, 27, 29
hyperparamètres, 62, 63, 65
IA connexionniste, 21, 22, 26, 161
IA forte, 125, 134, 135
IA symbolique, 21, 22, 25, 37, 161
idéalistes, 23, 24
inférence bayésienne, 75, 124
inférence bayésienne naïve, 75
intelligence artificielle, 17
interprétabilité, 158
John Hopfield, 28
John McCarthy, 25
John Searle, 130
langage informatique, 18, 67
linéairement séparables, 87, 88, 89, 93
loi de Moore, 29, 31, 134, 135
machine à support de vecteur, 30, 88, 89
machine analytique, 24
machine learning, 21, 22, 30, 37, 39, 42, 43, 45, 46, 54, 57, 58,
60, 62, 65, 66, 67, 69, 73, 89, 166, 167
machines à support de vecteur, 89
malédiction de la dimensionnalité, 41
Marvin Minsky, 25, 28
matérialistes, 23, 24
meta-learning, 66
méthode des noyaux, 89
méthode des plus proches voisins, 89
méthode ensembliste, 74
métrique de qualité, 64
neurones, 25, 28, 30, 31, 32, 40, 47, 51, 58, 74, 85, 86, 89,
90, 91, 92, 93, 94, 95, 99, 104, 108, 109, 115, 121, 133, 142,
159, 160, 161, 162, 167, 172
octet, 18
open source, 59, 94
overfitting, 44, 45, 46, 47, 48
perceptron, 26, 28, 30, 85, 86, 87, 88, 89, 90, 92, 93, 159
plongement lexical, 106, 107, 108
potentiel d’activation, 90
programme, 18, 24, 144, 161, 168
pruning, 162
puces neuromorphiques, 161
Q-valeur, 121
rasoir d’Occam, 49, 69
recherche locale, 42, 43
réduction de dimensionnalité, 32, 40
Règlement général sur la protection des données, 154
régression, 50, 86
régression linéaire, 39, 58, 70, 71, 86
régularisation, 48, 49
réseaux antagonistes génératifs, 99, 100
réseaux convolutifs, 96, 97, 102, 109
réseaux de neurones artificiels, 30, 32, 47, 51, 58, 85, 89, 90, 91,
93, 104, 108, 115, 159, 160, 172
réseaux récurrents, 109, 110, 111
retour sur trace, 27
rétropropagation du gradient, 43
segmentation d’image, 124
sensibilité, 64, 115, 131, 137
série temporelle, 71, 72
singularité technologique, 134, 135
spécificité, 64, 115, 134, 137
symbolistes, 23, 26, 27
synapses, 40, 90
système de recommandation, 78, 154
systèmes experts, 28, 29
téléchargement d’esprit, 132
test de Turing, 130, 131, 136
théorème de Bayes, 75
transfer learning, 59, 93, 94
VAE, 99, 100, 101
vecteurs, 106, 107, 108, 112, 156
Walter Pitts, 25
Warren McCulloch, 25
Yann Le Cun, 95
Yoshua Bengio, 28
REMERCIEMENTS
Je tiens à remercier mes parents, Eleanor et Bernard, dédicataires de ce
livre, pour leur aide et leur soutien si précieux. Mon amie et éditrice,
Sandra, pour m’avoir offert l’opportunité d’écrire mon premier livre et
pour ses suggestions. Mon cousin, Hamish, pour des discussions aussi
interminables que passionnantes. Mon maître de thèse, Giulio, pour la
bienveillance qu’il a accordée à ce projet personnel. Enfin et surtout, ma
Maxine, pour ses illustrations, ses idées, ses encouragements et son
amour intarissable.
À PROPOS DE L’AUTEUR
Jeune chercheur de nationalité franco-britannique, Stéphane d’Ascoli
partage son temps entre le Laboratoire de Physique de l’École Normale
Supérieure de la rue d’Ulm, et FAIR, le pôle de recherche fondamentale
sur l’Intelligence Artificielle de Facebook. Sa recherche a pour but de
faire avancer la théorie des réseaux de neurones artificiels, bien en
retard sur la pratique.
Clarinettiste passionné, il s’intéresse également aux applications

possibles de l’IA dans le domaine de la musique. Titulaire d’un master de
Physique Théorique de l’École Normale Supérieure, où il enseigne
actuellement le Deep Learning, il a auparavant travaillé avec la NASA
sur l’astrophysique des trous noirs.
Il croit fermement à la nécessité d’une diversification des approches

concernant l’IA, et d’une médiation efficace envers l’ensemble de la
population.

Comprendre La Révolution de Lintelligence Artificielle (Stéphane Dascoli (DASCOLI, Stéphane) ) @lechat

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Comprendre La Révolution de Lintelligence Artificielle (Stéphane Dascoli (DASCOLI, Stéphane) ) @lechat

Transféré par

Droits d'auteur :

Formats disponibles

Stéphane d’Ascoli

Correction : Anne-Lise Martin

Éditions First, un département d’Édi8

Ce document numérique a été réalisé par Nord Compo.

L’intelligence artificielle (IA) est partout, tout comme les voitures. À la

Alors, pourquoi ne sait-on pas comment fonctionne cette IA qui

Si les mathématiques sont pour vous une contrée lointaine, pas de

Premièrement, parce que c’est important. J’ai souvent entendu des

Deuxièmement, parce que c’est fascinant. Nul besoin d’être un fan

QU’EST-CE QU’UN ALGORITHME ?

Les ordinateurs vivent dans un monde bien différent du nôtre : le monde

Les ordinateurs parlent également une langue bien différente des

Cela nous amène à une autre grande différence : le monde numérique

Dans chaque cas, on perd de l’information dans le découpage, mais on

Voici un problème pour vous : vous êtes au supermarché, et à la sortie,

Cet exemple simpliste est assez emblématique de l’algorithmique : les

2. Plus difficile : cette fois le paquet de cartes est dans le désordre.

• L’algorithme à base de règles : il choisit son coup suivant en fonction

• L’algorithme d’apprentissage : l’ordinateur calcule lui-même la

Le machine learning est donc un sous-domaine de l’intelligence

Le deep learning est un sous-domaine du machine learning dont le

Dans cet ouvrage, nous allons ouvrir progressivement cette poupée

L’histoire de l’IA est mouvementée. C’est l’histoire d’une

Pour ne pas vous perdre dans le cours des événements,

QUAND EST NÉE L’IA ?

La logique binaire, celle des algorithmes, se développe ensuite petit à

Durant l’été 1956, les chercheurs américains Marvin Minsky et John

• Les symbolistes, partisans de l’IA symbolique, entendent représenter

• Les connexionnistes, partisans de l’IA connexionniste, préfèrent

En 1957, le psychologue américain Frank Rosenblatt pose la première

Parallèlement, les symbolistes s’enthousiasment pour des algorithmes

L’heure est à l’optimisme : les chercheurs en IA pronostiquent alors

QU’EST-CE QUE LES HIVERS DE L’IA ?

D’un côté, les algorithmes connexionnistes basés sur le perceptron

De l’autre, les algorithmes symboliques échouent dès que le problème

REPRISE AVEC LES SYSTÈMES EXPERTS

Le connexionnisme bénéficie également de la reprise des financements.

COMMENT LE DEEP LEARNING A-T-IL

Le premier fracas médiatique de l’IA fut la victoire de l’ordinateur Deep

Deux siècles plus tard, Kasparov perdait sa partie historique contre

LA REVANCHE DES CONNEXIONNISTES

• La puissance de calcul. Celle-ci a explosé avec la loi de Moore, mais

• Les données d’entraînement. Ce sont les exemples que l’on présente

Les processeurs de calcul, cerveaux des ordinateurs, sont subdivisés en

En 2012, Geoffrey Hinton crée la surprise avec ses étudiants de

Frise chronologique résumant l’histoire de l’intelligence artificielle

COMPRENDRE GRÂCE À UN EXEMPLE TRÈS

Rapidement, vous vous apercevez que les points s’alignent plus ou

DES MACHINES À CURSEURS

L’exemple précédent est une tâche très classique qui s’appelle la

Il faut imaginer ces deux variables d’ajustement comme deux curseurs

Avant de continuer, arrêtons-nous un instant pour clarifier un point

ET NOUS, D’ABORD, COMMENT APPRENONS-

Plus précisément, un neurone est une cellule composée de trois parties :

Toute la transmission d’information se passe donc au niveau des

COMMENT APPREND L’ALGORITHME ?

Dans l’exemple du prix de vente d’une moto d’occasion, la fonction de

Prenons un exemple simple. Vous organisez une soirée d’entreprise sur

Il s’avère que dans cette situation, le nombre de combinaisons à essayer

Dans l’exemple des péniches, on tire au hasard une personne dans

Revenons à nos curseurs. Si on devait les ajuster manuellement, une

Pourquoi parle-t-on de recherche locale ? Parce qu’on ne fait que des

QU’EST-CE QUE LA GÉNÉRALISATION ?