Académique Documents
Professionnel Documents
Culture Documents
Comprendre
la révolution de
l’intelligence
artificielle
© Éditions First, un département d’Édi8, Paris, 2020.
« Cette œuvre est protégée par le droit d’auteur et strictement réservée à l’usage privé du client.
Toute reproduction ou diffusion au profit de tiers, à titre gratuit ou onéreux, de tout ou partie de
cette œuvre, est strictement interdite et constitue une contrefaçon prévue par les articles L 335-2
et suivants du Code de la Propriété Intellectuelle. L’éditeur se réserve le droit de poursuivre toute
atteinte à ses droits de propriété intellectuelle devant les juridictions civiles ou pénales. »
ISBN : 978-2-412-05591-5
ISBN numérique : 978-2-412-05878-7
Pourtant, l’IA aura sans doute bien plus d’influence que les voitures sur
la vie des humains nés aujourd’hui, et si vous avez ouvert ce livre, c’est
sûrement parce que vous avez envie d’y comprendre quelque chose.
Peut-être que votre meilleure amie, votre compagnon, votre belle-mère
ou vos collègues travaillent sur l’IA et que vous voulez mettre un pied
dans leur monde. Peut-être que votre métier a un lien avec l’IA, et que
vous voulez élargir un peu votre horizon professionnel mais ne savez
pas par où commencer. Ou peut-être que vous êtes tout simplement
curieux, et voulez enfin comprendre ce sujet dont on nous rebat les
oreilles dans les médias.
LE MONDE
DES ALGORITHMES
Humains curieux, bouclez votre ceinture. Pour rencontrer
cette chose mystérieuse que certains appellent intelligence
artificielle, vous devrez voyager vers une planète fort éloignée
de la nôtre : celle des algorithmes.
Mais si vous aviez cent articles dans votre chariot, cette méthode vous
condamnerait potentiellement à tester les cent articles ! Une méthode
bien plus efficace serait de séparer le chariot en deux tas de cinquante
articles, et de commencer par passer le premier tas devant le portique.
S’il sonne, vous cherchez uniquement au sein de ce tas, sinon vous
cherchez dans l’autre. Dans les deux cas, vous avez déjà éliminé la
moitié des articles d’un seul coup ! En répétant cette procédure, vous
trouverez l’article responsable à coup sûr en seulement sept coups. Vous
appliquez alors une des méthodes les plus fondamentales de
l’algorithmique, dont la devise fut inventée par les sénateurs romains :
« Diviser pour régner. »
INTELLIGENCE ARTIFICIELLE,
MACHINE LEARNING, DEEP
LEARNING : KÉZAKO ?
L’intelligence artificielle (IA) est un terme vague, subjectif, dont le sens
évolue au gré des avancées techniques. À l’origine, une IA n’est rien
d’autre qu’un algorithme dont le but est de prendre des décisions
relevant d’une certaine forme d’intelligence. En pratique, la pertinence
du mot « intelligence » est discutable dans la plupart des cas, mais par
simplicité, le terme générique d’IA sera utilisé tout au long du livre pour
englober les différents algorithmes que nous rencontrerons.
Un exemple vaut mille mots : quand vous jouez aux échecs contre
l’ordinateur, vous jouez contre une IA. Dans cette situation, on peut
imaginer deux types d’algorithmes :
*1. Méthode naïve : énumérer les cartes une à une jusqu’à arriver à la bonne. Méthode efficace
(recherche par dichotomie) : diviser la pile en deux sous-piles de taille égale, A et B (les cartes
de A sont de plus faible valeur que celles de B). Si la valeur de la première carte de B est plus
élevée que 42, vous savez que vous devez chercher dans A ; sinon, vous devez chercher dans B.
Répétez la procédure jusqu’à découvrir le nombre 42.
*2. Méthode naïve : constituer une nouvelle pile rangée en y insérant une à une des cartes de
la pile de départ. Méthode efficace (tri par pivot) : choisir au hasard une carte qui sera nommée
le « pivot ». Placer les cartes plus faibles que le pivot dans une sous-pile A et les cartes les plus
fortes dans une sous-pile B. Répéter l’opération pour A et B, et ainsi de suite jusqu’à ce qu’A et
B soient triés. vous n’aurez plus qu’à concaténer A, le pivot, puis B pour obtenir une pile triée.
CHAPITRE 2
L’INTELLIGENCE
ARTIFICIELLE
DES MYTHES ORIGINELS
À AUJOURD’HUI
Dès le XVIIe siècle, de vifs débats divisent les penseurs autour de ce que
l’on appelle de nos jours le computationnalisme – la possibilité de
réduire la pensée à un ensemble de processus logiques reproductibles
sur un ordinateur. « La raison n’est rien d’autre que le fait de calculer »,
peut-on lire dans le Léviathan, écrit par Thomas Hobbes en 1651. Cette
question oppose deux grandes branches de la philosophie de l’esprit : les
idéalistes, qui affirment que la pensée est au-dessus de la matière, et les
matérialistes, qui pensent au contraire qu’elle n’est qu’une émanation
de la matière.
Il faut attendre les années 1930-1940 pour voir apparaître les premiers
ordinateurs tels que nous les connaissons aujourd’hui. Ces mêmes
années, le célèbre mathématicien anglais Alan Turing montre que ces
derniers peuvent simuler tout processus logique, et les
neuroscientifiques Warren McCulloch et Walter Pitts imaginent un
premier modèle mathématique simplifié des neurones de notre cerveau.
Ces événements donnent corps aux idées computationnalistes et
préparent un terreau favorable à l’émergence de l’IA.
À QUOI RESSEMBLAIENT
LES PREMIERS ALGORITHMES D’IA ?
De l’événement fondateur de la conférence de Dartmouth au milieu des
années 1970, l’IA est en plein essor. Depuis les débuts, deux grandes
approches se confrontent :
SECOND HIVER
Vers la fin des années 1980, l’engouement stagne à nouveau du fait des
limites des systèmes experts, incapables de voir plus loin que le bout de
leur nez. Ultra-spécialisés dans une tâche précise, appliquant bêtement
des ordres sans discernement, ils sont bien loin des espoirs d’une
véritable IA généraliste qui avaient nourri les financements de
recherche. Ceux-ci s’assèchent à nouveau : c’est le second hiver de l’IA.
LA LOI DE MOORE
Heureusement, dès les années 1990, le printemps revient de nouveau. La
puissance de calcul, principal facteur limitant le développement de l’IA
sous toutes ses formes, entame une progression exponentielle grâce aux
progrès en miniaturisation. C’est la fameuse loi de Moore : à prix égal, la
puissance de calcul des processeurs double tous les deux ans.
Mais la réelle révolution n’intervient que dans les années 2010 : c’est
celle du deep learning. Pourquoi est-elle intervenue aussi tard, alors que
les réseaux de neurones artificiels existaient depuis des décennies ? Eh
bien, parce que les algorithmes de deep learning, comme tous les
algorithmes d’apprentissage, ont besoin de deux ressources en
abondance :
COMPRENDRE
LE MACHINE LEARNING
QU’EST-CE QU’UN ALGORITHME
DE MACHINE LEARNING ?
Les algorithmes d’apprentissage ont mis un bout de temps à se
faire connaître, étant auparavant dominés par les algorithmes
à base de règles. Aujourd’hui, c’est pourtant le machine
learning qui a pris le devant de la scène, à tel point que l’IA
symbolique est presque devenue obsolète… De fait, comment
peut-on apprendre quelque chose à une machine ?
Les points sont plus ou moins alignés selon la droite rouge. À partir de celle-ci, vous pouvez
prédire le prix de vente de votre moto achetée il y a trois ans : les flèches vertes indiquent que
vous pouvez espérer la vendre à 1 500 euros.
LE PROBLÈME : LA MALÉDICTION
DE LA DIMENSIONNALITÉ
Malheureusement, ajuster les curseurs de manière optimale devient un
problème d’autant plus difficile que le nombre de curseurs est élevé !
C’est comme essayer de déverrouiller un cadenas : plus il y a de chiffres,
plus il faut essayer de combinaisons pour trouver le code. Or, les
algorithmes modernes utilisent des nombres titanesques de curseurs
(plusieurs milliards parfois). C’est ce que l’on appelle la malédiction de
la dimensionnalité (la dimensionnalité désigne le nombre de curseurs
en jeu).
ALGORITHME DE DESCENTE DU GRADIENT. La balle descend la pente jusqu’à ce qu’elle atteigne une
cuvette au fond de laquelle elle reste bloquée. Elle atteint un point relativement bas (minimum
local), mais pas le point le plus bas, signalé par une étoile (minimum global).
LE DILEMME BIAIS-VARIANCE :
TOUT EST QUESTION DE COMPROMIS
L’overfitting est ce qui rend le machine learning à la fois frustrant et
passionnant. Chercher à trop optimiser la fonction de perte, en prenant
trop de curseurs ou en s’entraînant pendant trop longtemps, peut nuire
au véritable objectif, qui est la généralisation.
Tout est donc une question de compromis. Il faut choisir le bon nombre
de curseurs, pour extraire la bonne quantité d’information des données
d’entraînement.
• Underfitting : un algorithme avec trop peu de curseurs ne soutirera pas
assez d’informations. On dit qu’il souffre d’un biais élevé. Pour espérer
généraliser son apprentissage, il faut déjà avoir appris quelque chose !
Une solution serait d’en prendre plus que le nécessaire, pour être sûr de
ne rien rater, mais de limiter leur utilisation. C’est le principe des
méthodes dites de régularisation, qui sont une sorte de régime
alimentaire pour algorithme : prévoir beaucoup de nourriture pour qu’il
ne souffre pas de faim, mais surveiller sa nutrition pour qu’il ne souffre
pas d’obésité.
• Lui mettre des bâtons dans les roues (en augmentant la fonction de
perte) chaque fois qu’il utilise un nouveau curseur, de manière qu’il les
utilise avec parcimonie. En d’autres termes, le punir à chaque bouchée.
L’APPRENTISSAGE SUPERVISÉ
Ici, on présente des données à l’algorithme, et celui-ci doit essayer de
recracher leurs étiquettes. Deux scénarios sont alors à distinguer.
APPRENTISSAGE SUPERVISÉ. Gauche : régression. L’algorithme apprend à prévoir le prix d’une moto
en fonction de son âge (droite en pointillés rouge) à partir des données d’entrée (points bleus).
Droite : classification. L’algorithme apprend à séparer les données d’entrée (croix vertes et
bleues) en traçant une frontière (en pointillés rouge).
APPRENTISSAGE NON SUPERVISÉ. Gauche : l’algorithme remarque que les points sont
principalement répartis selon la direction donnée par la flèche rouge. Droite : l’algorithme
remarque que les points sont principalement répartis autour des centres marqués par des croix
rouges.
2.
3.
*1. Mathématiquement parlant, cela correspond à calculer la dérivée (ou plus exactement le
gradient) de la fonction de perte par rapport aux curseurs. Dans le cas du deep learning, il a
fallu attendre les années 1980 pour avoir une méthode efficace pour faire ce calcul : la
rétropropagation du gradient.
*2. Ce n’est toutefois pas vrai pour les réseaux de neurones artificiels, qui arrivent
miraculeusement à apprendre par cœur toutes les données sans pour autant perdre de vue la
tendance générale. Ce phénomène mal compris, à l’origine du succès du deep learning, est un
sujet de recherche très actif.
CHAPITRE 4
Pourquoi une telle ruée vers l’or ? Premièrement, parce que la donnée est
le facteur le plus déterminant en termes de performance. Un algorithme
modeste nourri de données abondantes fonctionne généralement mieux
qu’un algorithme puissant en manque de données. Deuxièmement,
parce qu’il est difficile de se procurer des données de qualité en quantité,
comme nous allons le voir. À l’inverse, il est assez facile de se procurer
les derniers algorithmes à la mode grâce à l’essor du open source. Il est
même possible de télécharger des algorithmes pré-entraînés sur des
machines dernier cri, et de les adapter à une nouvelle tâche grâce au
transfer learning, que nous verrons chapitre 6.
4. Formater les données. Il faut bien mettre les données sous une
forme compréhensible par l’algorithme si l’on veut qu’il apprenne
quelque chose ! Par exemple, pour du texte, il faut séparer les mots, puis
représenter ces derniers par des nombres, comme nous le verrons au
chapitre 8.
COMMENT FABRIQUER
UN ALGORITHME DE MACHINE
LEARNING ?
Vos données sont prêtes : il est temps de passer à l’élaboration à
proprement parler de la recette. On peut résumer la procédure en quatre
grandes étapes, illustrées plus loin dans un diagramme.
Clairement, le faux positif est bien plus grave ! La fonction de perte fait
en sorte que l’algorithme se trompe le moins souvent possible, mais ne
nous dit pas s’il est davantage coupable de faux positifs ou de faux
négatifs. Ce dernier pourrait très bien tricher : si 99 % des mails étaient
des spams, il suffirait de filtrer tous les mails pour avoir raison 99 % du
temps !
Une des plus belles formes de meta-learning a été découverte en… 1859.
C’est la théorie de l’évolution de Charles Darwin. Oui, ce principe peut
être utilisé en machine learning : on parle d’algorithmes
évolutionnaires. À partir d’un algorithme donné, on crée une population
de nouveaux algorithmes qui ressemblent à l’algorithme original (tout
comme vous ressemblez à vos parents), à quelques modifications
aléatoires près (les mutations génétiques, en biologie). On sélectionne
les algorithmes les plus performants de cette descendance, et ceux-ci
deviennent les nouveaux parents. On recommence ainsi de suite, de
génération en génération : petit à petit, le meilleur algorithme de chaque
génération devient de plus en plus performant.
import sklearn
import pandas
data_train = pandas.read_excel(«train.xls»)
data_test = pandas.read_excel(«test.xls»)
# 2. Importer l’algorithme
algorithme = Linear_Regression()
algorithme.fit(x_train, y_train)
# 4. Tester l’algorithme
y_predict = algorithme.predict(x_test)
QUELQUES
APPLICATIONS CÉLÈBRES
Maintenant que vous êtes familiarisé avec les rouages internes
des algorithmes d’apprentissage, vous êtes prêt à découvrir
leurs innombrables applications. Vous brûlez certainement
d’impatience de vous plonger dans les méandres du deep
learning, omniprésent dans les médias, mais gardez à l’esprit
que son usage est surtout réservé aux tâches complexes.
Souvenez-vous du rasoir d’Occam ! Pour les tâches
relativement simples, inutile de prendre un marteau pour
écraser une mouche ; il vaut mieux choisir un bon vieil
algorithme de machine learning « classique ». Voici donc
quelques incontournables.
Remarquez que dans la figure, les questions sont posées dans un ordre
précis, et consistent à comparer une valeur à un seuil, indiqué en rouge.
Par exemple, s’il fait plus froid qu’une certaine température, on aura
plutôt tendance à emprunter la voiture ou les transports en commun !
Dans le cas des forêts aléatoires, on entraîne les arbres sur des jeux de
données différents pour que leurs prédictions soient aussi diversifiées
que possible. Mais on peut même aller plus loin en recourant aux
prédictions d’algorithmes complètement différents, par exemple
mélanger des réseaux de neurones et des arbres décisionnels, pour que
les forces des uns compensent les faiblesses des autres.
É É
L’INFÉRENCE BAYÉSIENNE :
COMMENT DÉTECTER LES SPAMS ?
Le théorème de Bayes est fondamental en probabilités. Il nous dit
comment la probabilité d’un événement est modifiée lorsqu’on reçoit
une nouvelle information. Exemple : vous voulez savoir si un individu
pioché au hasard dans le monde est écossais. A priori, la probabilité est
faible puisque l’Écosse représente moins de 0,1 % de la population
mondiale. Mais vous disposez d’une information : ses cheveux sont roux.
Or, l’Écosse détient le record mondial de rousseur, avec 12 % de la
population, contre 2 % dans le reste du monde. Le théorème de Bayes
vous dit simplement qu’avec cette information, la probabilité que
l’individu soit écossais augmente : elle est multipliée par 6 (12/2 = 6).
Comment utiliser ce théorème pour détecter des spams dans votre boîte
mail ? Rien de plus simple. Vous voulez connaître la probabilité qu’un
mail soit un spam. A priori, la probabilité est faible puisqu’en moyenne
seuls 10 % des mails que vous recevez sont des spams. Mais vous
disposez d’une information : le contenu du mail. L’inférence bayésienne
naïve considère ce contenu comme une série d’informations
successives, indépendantes les unes des autres – ce qui est loin d’être le
cas, mais simplifie grandement les calculs, d’où le qualificatif « naïf ».
Commençons par le premier mot : « Félicitations ! » Comme ce mot est
particulièrement fréquent dans les spams (« Félicitations ! Vous avez
gagné un bon d’achat »), la probabilité que le mail soit un spam
augmente. Et ainsi de suite : mot après mot, on actualise la probabilité
que le mail soit un spam.
É
LA RÉDUCTION
DE DIMENSIONNALITÉ : COMMENT
INVESTIR EN BOURSE ?
La finance est, au premier abord, un domaine très complexe, où un grand
nombre de variables évoluent en s’influençant les unes les autres.
Comment arriver à voir plus clair dans ce chaos ? Il est monnaie
courante, en analyse de données, de vouloir simplifier le problème en
éliminant les variables inutiles. Cela s’appelle la réduction de
dimensionnalité. Comment s’y prendre ?
LES SYSTÈMES
DE RECOMMANDATION : COMMENT
NETFLIX CERNE-T-IL VOS GOÛTS ?
Pour suggérer des films susceptibles de vous plaire, Netflix doit
apprendre vos goûts au moyen d’un système de recommandation. Pour
cela, le géant du streaming essaye de trouver des utilisateurs ayant les
mêmes goûts que vous. Cette méthode se résume dans une formule
récurrente : « Les utilisateurs qui ont aimé X ont également aimé Y. »
Netflix repère des communautés de goûts, signalées ici par quatre amas de couleurs différentes.
Chaque point représente les goûts d’un utilisateur, et les croix représentent le centre d’un amas.
Le rôle d’un algorithme de clustering est de trouver ces centres. Ici, vous seriez identifié comme
un amateur de films d’aventures. Bien entendu, en réalité, il y a bien plus que quatre amas, et
ceux-ci ne représentent pas des catégories aussi simples.
Le principe d’un algorithme de clustering est de détecter des amas de
points. Un des algorithmes les plus célèbres est l’algorithme k-means *1.
Prenons un cas intuitif pour illustrer son principe de fonctionnement.
Vous êtes le propriétaire d’une chaîne de pizzerias à succès et voulez
étendre votre business en ouvrant deux nouvelles enseignes, A et B.
Pour atteindre un maximum de clientèle, vous voulez trouver les
emplacements les plus stratégiques, à partir des données géographiques
des habitations. Que faut-il faire ? Détecter deux amas, et placer les
enseignes au centre de chacun des amas !
Vous dites donc à k-means de chercher deux amas parmi les habitations.
Avant de regarder les données, l’algorithme ne sait rien et place les
enseignes au hasard. Puis il actualise leurs positions par étapes
successives :
*1. Le nom k-means est constitué de k, qui désigne le nombre d’amas recherchés (ici k = 2), et
du mot anglais mean, qui désigne le centre des amas.
CHAPITRE 6
COMPRENDRE LE DEEP
LEARNING
Nous y voilà enfin ! Le deep learning est un sujet fascinant, et
je vous félicite d’avoir lu jusqu’ici ; mais c’est également ici
que les choses commencent à se corser. Car le deep learning
est aussi puissant que mystérieux, et tout comme notre
cerveau, il est loin de nous avoir livré tous ses secrets. On
qualifie d’ailleurs souvent les réseaux de neurones artificiels
de « boîtes noires ». Qu’à cela ne tienne : ouvrons ces boîtes et
examinons leur contenu.
COMMENT FONCTIONNE
LE PERCEPTRON ?
En parcourant l’histoire de l’IA dans le chapitre 2, nous avons mentionné
l’invention du perceptron comme étant le premier pas vers le deep
learning. Le perceptron est le modèle mathématique du neurone, brique
élémentaire des réseaux de neurones : comprendre son fonctionnement
est essentiel pour comprendre le deep learning.
Prenons un cas très concret : la détection de mélanome. Vous voulez
déterminer si la tache qui est apparue récemment sur votre peau est un
simple grain de beauté, ou si elle est de nature cancéreuse. Les
dermatologues recommandent généralement la règle ABCDE pour
l’auto-examen. Celle-ci consiste à relever cinq caractéristiques du grain
de beauté : son Asymétrie, l’irrégularité de ses Bords, l’inhomogénéité de
sa Couleur, son Diamètre, et la vitesse de son Évolution. Plus ces
caractéristiques sont marquées, plus le grain de beauté a de risques
d’être cancéreux.
COMMENT FONCTIONNENT
LES RÉSEAUX DE NEURONES
ARTIFICIELS ?
On parle de deep learning, c’est-à-dire d’apprentissage « profond », parce
que les réseaux de neurones artificiels sont constitués de couches de
neurones en cascade. Chaque neurone (c’est-à-dire chaque perceptron)
d’une couche fait la somme des informations qu’il reçoit des neurones de
la couche précédente et transmet aux neurones de la couche suivante,
tout cela grâce aux synapses, qui sont les curseurs (souvent appelés
« poids » dans ce contexte) à ajuster lors de l’entraînement. Dans les
réseaux de neurones les plus puissants, on utilise parfois plusieurs
centaines de couches successives !
Mais ce n’est pas tout : un ingrédient magique permet aux réseaux de
neurones artificiels de sortir du monde linéaire si limité des perceptrons.
Entre chaque couche, on applique une fonction d’activation, sorte de
déformation qui a le bon goût d’introduire de la non-linéarité (de
« tordre » la frontière, en quelque sorte). Le terme « activation » vient de
la neuroscience, car ce principe est très proche de ce qui se passe dans
notre cerveau.
DEEP LEARNING
ET IMAGES
En 1989, les premiers réseaux de neurones de Yann Le Cun
parvenaient tout juste à reconnaître des chiffres écrits assez
lisiblement à la main. Trente ans plus tard, les ordinateurs
repoussent les limites humaines dans la plupart des épreuves
de reconnaissance visuelle et commencent à être utilisés pour
conduire des voitures. Comment le deep learning a-t-il pu
permettre une telle explosion ? Réponse dans ce chapitre.
Attention, ces algorithmes vont vous en mettre plein les
yeux…
Ces quatre personnes n’ont jamais existé ! Elles sont tirées tout droit de l’imagination du
générateur d’images du site… thispersondoesnotexist.com. Grinçant…
Il existe deux grands types d’algorithmes génératifs : les auto-
encodeurs variationnels, plus connus sous leur acronyme anglais de
VAE, et les réseaux antagonistes génératifs, connus sous le nom de
GAN.
Comme leur nom l’indique, les GAN sont constitués de deux réseaux de
neurones en compétition l’un contre l’autre : le générateur et le
discriminateur.
Tout comme les GAN, les VAE mettent en jeu deux réseaux de
neurones, mais cette fois, les deux sont en coopération :
Le deep fake utilise les VAE d’une manière un peu particulière. Pour
apposer le visage de A sur une photographie de B, il y a une subtilité : il
faut utiliser un décodeur entraîné uniquement sur des photos de A. C’est
en quelque sorte le portraitiste attitré de A : précisez la position et
l’expression du visage désirées, et il vous dessinera A en respectant ces
indications. Pour réaliser un deep fake, il suffit d’extraire ces indications
de la photographie de B grâce à un encodeur et de les donner au
décodeur !
LE TRANSFERT DE STYLE :
COMMENT UNE IA PEUT-ELLE IMITER
LE STYLE DE VAN GOGH ?
Le transfert de style consiste à peindre un tableau dans le style artistique
d’un autre tableau. C’est, d’ailleurs, une superbe illustration de la
mécanique interne des réseaux convolutifs.
TRANSFERT DE STYLE. La Joconde peinte dans le style cubiste de Picasso (gauche), expressionniste
de Van Gogh (milieu) et impressionniste de Monet (droite).
Autre curiosité étonnante : les « rêves » des réseaux de neurones
artificiels. Comme vu dans le chapitre 6, les couches profondes des
réseaux de neurones artificiels extraient des informations complexes.
Par exemple, tel neurone sera stimulé lorsqu’un chien est détecté dans
l’image. Ce phénomène est magnifiquement illustré par les créations
« inceptionnistes » de l’algorithme Deep Dream Generator de Google.
Le principe est de faire halluciner le réseau de neurones : en partant
d’une image quelconque, on demande au réseau de neurones ce qu’il y
« voit » (quels neurones sont stimulés) et on le renforce dans l’image.
Puis on recommence, en donnant forme à son « imagination ». Dans
l’exemple de La Joconde ci-dessous, les épaules de Mona Lisa lui
évoquaient visiblement des oiseaux !
IMAGE INCEPTIONNISTE. C’est une représentation des « rêves » d’un réseau de neurones. On y voit
apparaître de manière hallucinatoire différents animaux et véhicules que le réseau de neurones a
appris à détecter.
CHAPITRE 8
DEEP LEARNING
ET LANGAGE
Qui n’a jamais ricané en entendant un assistant vocal
énumérer naïvement les restaurants les plus proches, alors
qu’on lui avait demandé les prévisions météo ? Notre exigence
envers ce genre d’algorithme est élevée, car le langage est
pour nous une évidence (du moins tant qu’on n’est pas à
l’étranger !). Mais arriver à faire comprendre notre langage et
toutes ses subtilités à un ordinateur est un travail titanesque,
qui est l’objet d’un grand domaine de l’IA : le traitement du
langage naturel. Ce domaine, tout comme celui de la vision, a
connu des progrès fulgurants depuis la révolution du deep
learning.
Ces réseaux récurrents peuvent être utilisés, entre autres, pour la saisie
prédictive. Si vous utilisez un smartphone, vous avez sûrement
remarqué que ce dernier vous suggère le prochain mot de la phrase que
vous êtes en train d’écrire, en se basant sur les mots précédents et vos
habitudes d’écriture.
LE MÉCANISME D’ATTENTION :
COMMENT FONCTIONNE
LA TRADUCTION AUTOMATIQUE ?
Il y a quelques années encore, il était extrêmement facile pour les
professeurs de langues étrangères de reconnaître le mot à mot
caractéristique des traducteurs automatiques, et de débusquer les
chenapans qui s’en étaient aidés. De nos jours, il est possible de
converser dans toutes les langues, en utilisant des oreillettes qui
écoutent et traduisent en temps réel. Comment a-t-on pu parvenir à un
tel saut qualitatif ?
Tout comme les modèles génératifs que nous avons rencontrés dans le
domaine de l’image, les algorithmes de traduction automatique mettent
en jeu un encodeur et un décodeur :
• L’encodeur reçoit en entrée les vecteurs représentant les mots de la
langue source. Son rôle est de construire une représentation compacte
de la phrase qui en résume le sens, tout comme l’encodeur du
générateur d’images construit le portrait-robot des visages qu’on lui
présente.
Sous sa forme la plus simple, l’algorithme procède d’une façon bien peu
naturelle de notre point de vue : le réseau récurrent de l’encodeur
parcourt le texte d’origine en entier, en stocke une représentation dans
sa mémoire, que le réseau récurrent du décodeur traduit tout d’un bloc.
Instinctivement, on aurait plutôt tendance à procéder par allers-retours
avec le texte d’origine, en avançant groupe de mots par groupe de mots,
sans perdre de vue le contexte.
DEEP LEARNING
ET AGENTS INTELLIGENTS
Un agent intelligent est un algorithme capable de percevoir
son environnement et d’interagir avec lui. Les algorithmes vus
jusqu’ici sont passifs : ils reçoivent des données et retournent
un résultat. L’agent intelligent, lui, est actif : ses actions
modifient l’état de son environnement, et il doit en
permanence s’adapter à cette évolution. D’AlphaGo aux
voitures autonomes, découvrez les miracles accomplis par le
deep learning dans ce domaine.
LE DILEMME EXPLORATION-
EXPLOITATION : COMMENT JOUER
AU CASINO ?
Vous êtes au casino, devant un long rayon de machines à sous. Chacune
d’elles fournit une récompense fixe, que vous ne connaissez pas à
l’avance. Votre objectif : maximiser vos gains après cent coups. Vous
glissez alors une pièce dans la première machine, qui vous en rend trois.
Vous essayez ensuite la deuxième, qui, vous en donne dix.
CRÉATIVITÉ D’UN AGENT INTELLIGENT 9. Cette petite araignée était mise au défi de marcher en
minimisant le contact de ses pattes avec le sol. Elle trouva une solution à laquelle ses créateurs
n’avaient même pas pensé : basculer en avant pour se retrouver à l’envers, puis marcher sur les
coudes !
L’APPRENTISSAGE
PAR RENFORCEMENT PROFOND :
COMMENT FONCTIONNE ALPHAGO ?
Illustrons l’apprentissage par renforcement par un exemple très simple :
celui d’une IA à qui l’on essaierait d’apprendre à jouer aux échecs.
L’étape cruciale est de choisir le barème des récompenses.
La première idée qui vient à l’esprit est d’assigner à chaque pièce une
valeur symbolique. Les joueurs d’échecs retiennent généralement la
règle suivante :
• pion : 1
• cavalier : 3
• fou : 3
• tour : 5
• dame : 9
Comment donner à cet algorithme une vision plus riche du jeu ? Une
idée serait de le faire réfléchir sur plusieurs coups, en lui imposant de
maximiser la récompense totale sur plusieurs coups. Mais même si on ne
considère que les trois prochains coups, on se retrouve avec un nombre
titanesque de possibilités à envisager ! Ce qu’il faudrait, ce serait une
petite boule de cristal pour prédire la récompense future de chaque
coup, sans avoir à envisager toutes les possibilités.
Or, les boules de cristal existent de nos jours grâce au deep learning !
L’idée de Deepmind, filiale de Google spécialiste de l’apprentissage par
renforcement, fut d’utiliser des réseaux de neurones appelés deep Q-
networks pour prédire la récompense future d’un coup, appelée Q-
valeur, en s’inspirant des coups similaires observés dans le passé, dont
les conséquences sont connues. C’est ce qui leur a permis de mettre au
point le célèbre AlphaGo.
Les experts le savent : il n’y a pas que la valeur des pièces à prendre en
compte, il y a aussi leur position sur le plateau. Il n’est pas rare que des
maîtres sacrifient une pièce importante, si cela leur donne un avantage
positionnel. Problème : s’il est facile d’affecter des valeurs aux pièces, il
est difficile de quantifier précisément ce qu’est une « bonne position ».
C’est ainsi que sont entraînés les algorithmes de jeu les plus
performants, comme AlphaGo. L’apprentissage est très long, car lors de
ses premières parties l’algorithme n’a aucune idée de ce qui est bon ou
mauvais et tentera des coups aléatoires. AlphaGo s’est entraîné en
jouant plusieurs millions de fois contre lui-même, un nombre de parties
inenvisageable à l’échelle humaine… Mais au fil de ses expériences, il a
su développer une vision très mature et innovante du jeu,
révolutionnant selon certains experts des stratégies humaines pensées
depuis des siècles.
Lors de la deuxième partie de sa rencontre historique contre Lee Sedol,
e
le 37 coup d’AlphaGo fut qualifié de « coup divin » tant il était
impensable d’un point du vue humain. Piqué dans son orgueil, son
adversaire lui rendit la pareille lors de la 4e partie… Causant la déroute
de l’algorithme, qui n’avait pas prévu un tel coup de la part d’un
« simple » humain !
L’INTELLIGENCE
ARTIFICIELLE
FACE À L’INTELLIGENCE HUMAINE
Toujours est-il que depuis 1950, personne n’a trouvé mieux que le test de
Turing pour mesurer l’« intelligence » d’une machine, malgré toute
l’ambiguïté qui se cache derrière le concept !
É
DANS QUELS DOMAINES L’IA DÉPASSE-
T-ELLE DÉJÀ L’ÊTRE HUMAIN ?
C’est un fait : de nos jours, l’IA dépasse l’être humain dans de nombreux
champs d’application. C’est une blessure narcissique difficile à accepter
pour l’humain, mais ce n’est pas la première. Il a bien dû accepter que la
Terre n’est pas le centre de l’Univers avec Copernic, qu’il descend du
singe avec Darwin, et qu’il n’est pas maître de sa propre pensée avec
Freud. Et cette fois, il peut au moins se satisfaire du savoir que c’est sa
propre création qui le dépasse.
À QUAND LA SINGULARITÉ
TECHNOLOGIQUE ?
À partir des années 1990, constatant l’évolution exponentielle du
progrès avec la loi de Moore, certains futurologues émirent l’hypothèse
d’une singularité technologique, moment où l’IA prendrait l’ascendant
sur l’être humain : on parle alors d’« IA forte ». Passé ce point, le progrès
deviendrait incontrôlable, l’IA étant en capacité de s’améliorer elle-
même. Alors, sommes-nous au bord de la singularité ?
La réponse est clairement non. Premièrement, parce que l’IA reste bien
moins efficace que notre cerveau en termes de quantité d’énergie et de
données. Alors qu’un enfant saurait reconnaître des races de chiens très
proches à partir d’une photo de chacune d’elles, les algorithmes
d’apprentissage supervisé les plus récents ont besoin de plusieurs
milliers d’images et d’heures d’entraînement pour atteindre les mêmes
performances. Deuxièmement, les algorithmes les plus performants
peuvent parfois battre les êtres humains dans une tâche précise, mais
sont bien loin d’atteindre la versatilité du cerveau humain : AlphaGo
serait bien incapable de distinguer des races de chien.
Notons que ces deux points sont en fait très liés : puisqu’on n’entraîne
les algorithmes que pour une tâche précise, ils ne peuvent mettre à profit
des connaissances externes comme le font les humains. L’enfant qui
apprend à distinguer deux races de chien triche par rapport à
l’algorithme, car il s’aide de tout ce qu’il a appris depuis sa naissance. Du
premier coup d’œil, il isole le chien de l’arrière-plan, identifie ses parties
du corps et cherche ses spécificités, tandis que l’algorithme ne sait ni ce
qu’est un chien, ni ce qu’est l’arbre devant lequel il est assis !
Peut-être que la question à se poser n’est pas de savoir qui est le plus
intelligent, mais plutôt comment il est possible de combiner nos
intelligences. Comme le disait Albert Einstein : « Les ordinateurs sont
incroyablement rapides, précis et stupides. Les hommes sont
incroyablement lents, inexacts et intelligents. L’ensemble des deux
constitue une force incalculable. »
*1. Une question très simple illustre ces deux systèmes. Une raquette et une balle coûtent
1 euro et 10 centimes : si la raquette coûte 1 euro de plus que la balle, combien coûte la balle ?
Votre système 1 vous crie probablement 10 centimes. Mais en mettant en marche votre
système 2, vous vous apercevrez que cette réponse est fausse, car la raquette coûterait alors
1 euro et 10 centimes, ce qui donnerait un total de 1 euro et 20 centimes. La réponse est
5 centimes.
CHAPITRE 11
2. Un robot doit obéir aux ordres qui lui sont donnés par un
être humain, sauf si de tels ordres entrent en conflit avec la
première loi.
À notre petite échelle, il ne nous reste qu’à espérer que les décideurs
garderont sagement en tête le concept de « brouillard de la guerre » si
cher au théoricien militaire prussien Carl von Clausewitz. Comme nous
l’avons évoqué dans le chapitre 9, les voitures autonomes sont encore
loin de pouvoir faire face aux situations complexes. À plus forte raison,
le champ de bataille étant le lieu par excellence de l’incertitude, l’usage
de systèmes entièrement autonomes ne ferait qu’ajouter du chaos au
chaos par l’introduction d’une variable incontrôlable. Qui tenir pour
responsable en cas d’erreur d’appréciation de la machine ?
Qu’adviendra-t-il lorsque les coûts de fabrication de ces robots seront si
bas qu’ils seront accessibles à tous les dictateurs et terroristes ?
COMMENT CONCEVOIR
UNE IA « ÉTHIQUE » ?
Nous avons étudié quatre grandes menaces incarnées par l’IA
dans le chapitre précédent. Pour faire face à ces dangers, de
nombreuses chantiers de réflexions ont été engagés. En 2017,
le médaillé Fields Cédric Villani a été chargé par le
gouvernement français de mettre sur pied un rapport sur
l’intelligence artificielle. En 2018, l’université de Montréal a
publié sa déclaration pour le développement d’une IA
responsable, qui pose dix grands principes à suivre. Ces
principes sont repris dans le Partenariat mondial sur
l’intelligence artificielle, adopté en octobre 2019 par ces deux
pays pionniers que sont la France et le Canada. Quels sont
donc ces enjeux à garder en tête pour concevoir une IA
« éthique » ?
COMMENT RESPECTER
LA CONFIDENTIALITÉ DES DONNÉES ?
É
DONNÉES COMMERCIALES
Si la plupart des sites Internet et applications pour smartphone sont
accessibles gratuitement, méfiez-vous ! On n’a rien sans rien : la
contrepartie est nécessairement une collecte de vos données
personnelles. Celles-ci peuvent certes servir à adapter le contenu à vos
besoins, mais elles sont surtout exploitées à des fins publicitaires. Une
multitude de « courtiers de données » dont vous ne connaissez
probablement même pas le nom (Axciom, Nielsen, Experian…) s’occupe
d’acheter et revendre ces données à votre insu. Ces données permettent
aux compagnies de nous influencer à plusieurs égards :
DONNÉES MÉDICALES
Un sujet encore plus sensible est celui des données médicales. Tout
porte à croire que les méthodes intrusives de collecte des données
pourraient s’infiltrer jusque dans notre corps :
Une étude récente 41 montre qu’on peut identifier n’importe quel individu
dans le monde de façon quasi certaine, seulement à partir d’une
quinzaine d’attributs démographiques : âge, sexe, nationalité… Un peu à
la manière d’Akinator, le « génie du web » qui identifie la personnalité
que vous avez en tête à partir de quelques questions. Inquiétant
lorsqu’on sait que les courtiers de données comme Acxiom détiennent
parfois plusieurs milliers d’attributs par individu…
Ce n’est pas tout. Les algorithmes reflètent non seulement les biais des
données, mais également ceux de leurs concepteurs, majoritairement
masculins et de peau blanche. Ainsi, on peut déplorer que les
algorithmes de reconnaissance faciale fonctionnent moins bien pour les
femmes et les personnes à la peau noire, par manque de données
d’entraînement 44.
Cependant, n’oublions pas une chose. Les biais de l’IA ne sont que le
reflet des biais humains. Avant de discréditer les algorithmes, il faut
balayer devant sa porte et se demander si leur jugement est plus ou
moins biaisé que le nôtre ! Le leur a également l’avantage de ne pas être
influencé par des facteurs externes. À titre d’exemple, des études
montrent que les décisions des juges humains sont bien plus clémentes
en début qu’en fin de journée 45 !
COMMENT ÉLABORER
UNE IA EXPLICABLE ?
É
LES RESPONSABILITÉS DE L’INTELLIGENCE
ARTIFICIELLE
L’IA sera inévitablement amenée à avoir de plus en plus de
responsabilité dans les décisions. On peut distinguer deux types de
scénarios.
Image du trou noir au centre de la galaxie M87, prise par l’Event Horizon Telescope.
Alors, que retenir de ces élucubrations ? Avant tout, que l’IA n’est pas de
ces inventions qui, comme l’imprimerie, ne rendront le monde que
meilleur. Elle n’est probablement pas non plus l’arme ultime qui causera
à elle seule la fin de l’humanité, comme on l’entend parfois. L’IA est l’un
de ces nouveaux outils très généraux, comme les ordinateurs et Internet,
qui accélèrent les choses, tantôt pour le bien de l’humanité, tantôt pour
son mal.
8. Lee, Dave. Amazon promises fix for creepy Alexa laugh. [En ligne]
7 mars 2018. https://www.bbc.co.uk/news/technology-43325230.
9. Cully, Antoine, et al. « Robots that can adapt like animals ». 2015,
Nature, p. 503.
13. Combier, Étienne. Quand les traders sont remplacés par des robots.
Les Échos. [En ligne] 9 février 2017.
https://www.lesechos.fr/2017/02/quand-les-traders-sont-remplaces-par-
des-robots-162124.
20. Wang, Dayong, et al. Deep larning for identifying metastatic breast
cancer. 2016, arXiv:1606.05718.
28. Shepherd, Christian. La police chinoise utilise le big data pour des
arrestations préventives au Xinjiang. Reuters. [En ligne] 27 février 2018.
https://fr.reuters.com/article/technologyNews/idFRKCN1GB0QA-
OFRIN.
31. Tual, Morgane. « Deepfake » : dupée par une voix synthétique, une
entreprise se fait dérober 220 000 euros. Le Monde. [En ligne]
6 septembre 2019.
https://www.lemonde.fr/pixels/article/2019/09/06/deepfake-dupee-par-
une-voix-synthetique-une-entreprise-se-fait-derober-220-000-
euros_5507365_4408996.html.
36. Lenoir, Luc. Une étude affirme que 85 % des emplois de 2030
n’existent pas aujourd’hui. Le Figaro. [En ligne] 17 juillet 2017.
https://www.lefigaro.fr/conjoncture/2017/07/17/20002-
20170717ARTFIG00212-une-etude-affirme-que-85-des-emplois-de-2030-n-
existent-pas-aujourd-hui.php.
41. Rocher, Luc. Données anonymes… bien trop faciles à identifier. The
Conversation. [En ligne] 17 septembre 2019.
http://theconversation.com/donnees-anonymes-bien-trop-faciles-a-
identifier-123157.
44. Lohr, Steve. Facial recognition is accurate, if you’re a white guy. The
New York Times. [En ligne] 9 février 2018.
https://www.nytimes.com/2018/02/09/technology/facial-recognition-
race-artificial-intelligence.html.
50. Akiyama, Kazunori et al. First M87 Event Horizon Telescope results.
IV. Imaging the central supermassive black hole. 2019, The
Astrophysical Journal Letters, vol. 875, p. L4.