Vous êtes sur la page 1sur 23

Les réseaux de neurones profonds aident à expliquer les cerveaux

vivants
Les réseaux de neurones profonds, souvent critiqués comme des
«boîtes noires», aident les neuroscientifiques à comprendre
l'organisation des cerveaux vivants.

Les neuroscientifiques informatiques découvrent que les


réseaux neuronaux d'apprentissage en profondeur
peuvent être de bons modèles explicatifs pour
l'organisation fonctionnelle des cerveaux vivants.

Hiné Mizushima pour Quanta Magazine


Anil Ananthaswamy
Auteur collaborateur

Àl'hiver 2011, Daniel Yamins , chercheur postdoctoral en


neurosciences computationnelles au Massachusetts Institute of
Technology, travaillait parfois après minuit sur son projet de vision
industrielle. Il élaborait minutieusement un système capable de
reconnaître les objets dans les images, quelles que soient les
variations de taille, de position et d'autres propriétés - ce que les
humains font avec facilité. Le système était un réseau neuronal
profond, un type de dispositif informatique inspiré du câblage
neurologique de cerveaux vivants.
«Je me souviens très distinctement du moment où nous avons
trouvé un réseau neuronal qui a réellement résolu la tâche», a-t-il
déclaré. Il était 2 heures du matin, un peu trop tôt pour réveiller son
conseiller, James DiCarlo , ou d'autres collègues, alors un Yamins
excité s'est promené dans l'air froid de Cambridge. «J'étais vraiment
excité», dit-il.
Cela aurait compté comme une réalisation remarquable dans la seule
intelligence artificielle, l'une des nombreuses qui feraient des réseaux
de neurones les chouchous de la technologie de l'IA au cours des
prochaines années. Mais ce n'était pas l'objectif principal de Yamins
et de ses collègues. Pour eux et pour d'autres neuroscientifiques, ce
fut un moment charnière dans le développement de modèles
informatiques pour les fonctions cérébrales.
DiCarlo et Yamins, qui dirige maintenant son propre laboratoire à
l'Université de Stanford, font partie d'une coterie de
neuroscientifiques utilisant des réseaux de neurones profonds pour
donner un sens à l'architecture du cerveau. En particulier, les
scientifiques ont eu du mal à comprendre les raisons derrière les
spécialisations au sein du cerveau pour diverses tâches. Ils se sont
demandé non seulement pourquoi différentes parties du cerveau
font des choses différentes, mais aussi pourquoi les différences
peuvent être si spécifiques: pourquoi, par exemple, le cerveau a-t-il
une zone pour reconnaître les objets en général mais aussi pour les
visages en particulier? Les réseaux de neurones profonds montrent
que de telles spécialisations peuvent être le moyen le plus efficace
de résoudre des problèmes.
Le neuroscientifique informatique Daniel
Yamins, maintenant à l'Université de Stanford, a
montré qu'un réseau de neurones traitant les
caractéristiques d'une scène de manière
hiérarchique, tout comme le cerveau le fait,
pouvait correspondre aux performances des
humains en matière de reconnaissance d'objets.

Photographie Fontejon / Institut de


neurosciences Wu Tsai

De même, les chercheurs ont


démontré que les réseaux profonds les plus compétents pour classer
la parole, la musique et les odeurs simulées ont des architectures qui
semblent être parallèles aux systèmes auditif et olfactif du
cerveau. De tels parallèles apparaissent également dans des réseaux
profonds qui peuvent regarder une scène 2D et déduire les
propriétés sous-jacentes des objets 3D qu'elle contient, ce qui aide à
expliquer comment la perception biologique peut être à la fois rapide
et incroyablement riche. Tous ces résultats suggèrent que les
structures des systèmes neuronaux vivants incarnent certaines
solutions optimales aux tâches qu'ils ont assumées.
Ces succès sont d'autant plus inattendus que les neuroscientifiques
sont depuis longtemps sceptiques quant aux comparaisons entre
cerveaux et réseaux de neurones profonds, dont le fonctionnement
peut être insondable. «Honnêtement, personne dans mon
laboratoire ne faisait quoi que ce soit avec des filets profonds
[jusqu'à récemment]», a déclaré la neuroscientifique du MIT Nancy
Kanwisher . «À présent, la plupart d’entre eux les forment
régulièrement.»
Filets profonds et vision
Les réseaux de neurones artificiels sont construits avec des
composants d'interconnexion appelés perceptrons, qui sont des
modèles numériques simplifiés de neurones biologiques. Les réseaux
ont au moins deux couches de perceptrons, une pour la couche
d'entrée et une pour la sortie. Mettez en sandwich une ou plusieurs
couches «cachées» entre l'entrée et la sortie et vous obtenez un
réseau de neurones «profond» ; plus le nombre de couches cachées
est élevé, plus le réseau est profond.
Des filets profonds peuvent être formés pour identifier des modèles
dans les données, tels que des modèles représentant les images de
chats ou de chiens. L'entraînement consiste à utiliser un algorithme
pour ajuster de manière itérative la force des connexions entre les
perceptrons, afin que le réseau apprenne à associer une entrée
donnée (les pixels d'une image) avec l'étiquette correcte (chat ou
chien). Une fois formé, le deep net devrait idéalement être en
mesure de classer une entrée qu'il n'a jamais vue auparavant.
Dans leur structure et leur fonction générales, les réseaux profonds
aspirent vaguement à imiter les cerveaux, dans lesquels les forces
ajustées des connexions entre les neurones reflètent des associations
apprises. Les neuroscientifiques ont souvent souligné des limites
importantes dans cette comparaison: les neurones individuels
peuvent traiter les informations plus largement que les perceptrons
«stupides», par exemple, et les réseaux profonds dépendent souvent
d'une sorte de communication entre les perceptrons appelée
rétropropagation qui ne semble pas se produire dans les systèmes
nerveux. Néanmoins, pour les neuroscientifiques computationnels,
les réseaux profonds ont parfois semblé être la meilleure option
disponible pour modéliser des parties du cerveau.
Lucy Reading-Ikkanda / Samuel Velasco / Quanta Magazine

Les chercheurs qui développent des modèles informatiques du


système visuel ont été influencés par ce que nous savons du système
visuel des primates, en particulier la voie responsable de la
reconnaissance des personnes, des lieux et des choses appelée flux
visuel ventral. (Une voie largement distincte, le flux visuel dorsal,
traite les informations pour voir le mouvement et les positions des
choses.) Chez l'homme, cette voie ventrale commence dans les yeux
et se dirige vers le noyau géniculé latéral dans le thalamus, une sorte
de station relais pour informations sensorielles. Le noyau géniculé
latéral se connecte à une zone appelée V1 dans le cortex visuel
primaire, en aval de laquelle se trouvent les zones V2 et V4, qui
mènent finalement au cortex temporal inférieur. (Les cerveaux de
primates non humains ont des structures homologues.)
L'idée neuroscientifique clé est que le traitement de l'information
visuelle est hiérarchique et se déroule par étapes: les étapes
antérieures traitent les caractéristiques de bas niveau dans le champ
visuel (telles que les arêtes, les contours, les couleurs et les formes),
tandis que les représentations complexes, telles que les objets et les
visages entiers , n'apparaissent que plus tard dans le cortex temporal
inférieur.

Samuel Velasco / Quanta Magazine


Ces idées ont guidé la conception du deep net par Yamins et ses
collègues. Leur réseau profond avait des couches cachées, dont
certaines effectuaient une «convolution» qui appliquait le même filtre
à chaque partie d'une image. Chaque convolution a capturé
différentes caractéristiques essentielles de l'image, telles que les
bords. Les caractéristiques les plus élémentaires ont été capturées
dans les premières étapes du réseau et les caractéristiques les plus
complexes dans les étapes plus profondes, comme dans le système
visuel des primates. Lorsqu'un réseau de neurones convolutifs (CNN)
comme celui-ci est formé pour classer des images, il commence avec
des valeurs initialisées au hasard pour ses filtres et apprend les
valeurs correctes nécessaires pour la tâche à accomplir.
Le CNN à quatre couches de l'équipe pouvait reconnaître huit
catégories d'objets (animaux, bateaux, voitures, chaises, visages,
fruits, avions et tables) représentés dans 5 760 images 3D photo-
réalistes. Les objets représentés variaient considérablement dans la
pose, la position et l'échelle. Même ainsi, le filet profond
correspondait aux performances des humains, qui sont
extrêmement bons pour reconnaître les objets malgré les variations.

« Honnêtement, personne dans mon laboratoire

ne faisait quoi que ce soit avec des filets profonds


[jusqu'à récemment]. Aujourd'hui, la plupart d'entre eux
les forment régulièrement.

Nancy Kanwisher, MIT


À l'insu de Yamins, une révolution dans le monde de la vision par
ordinateur validerait également indépendamment l'approche que
lui et ses collègues adoptaient. Peu de temps après avoir terminé la
construction de leur CNN, un autre CNN appelé AlexNet s'est fait
un nom lors d'un concours annuel de reconnaissance
d'image. AlexNet était également basé sur une architecture de
traitement hiérarchique qui capturait les fonctionnalités visuelles de
base à ses débuts et les fonctionnalités plus complexes aux étapes
supérieures; il avait été formé sur 1,2 million d'images étiquetées
présentant mille catégories d'objets. Lors du concours 2012,
AlexNet a acheminé tous les autres algorithmes testés: d'après les
métriques de la compétition, le taux d'erreur d'AlexNet n'était que
de 15,3%, contre 26,2% pour son concurrent le plus proche. Avec la
victoire d'AlexNet, les réseaux profonds sont devenus des
prétendants légitimes dans le domaine de l'IA et de l'apprentissage
automatique.
Yamins et d'autres membres de l'équipe de DiCarlo, cependant,
étaient à la recherche d'un gain neuroscientifique. Si leur CNN
imitait un système visuel, se demandaient-ils, pourrait-il prédire les
réponses neuronales à une nouvelle image? Pour le savoir, ils ont
d'abord établi comment l'activité des ensembles de neurones
artificiels de leur CNN correspondait à l'activité de près de 300 sites
dans le flux visuel ventral de deux macaques rhésus.
Ensuite, ils ont utilisé le CNN pour prédire comment ces sites
cérébraux réagiraient lorsque les singes recevaient des images qui
ne faisaient pas partie de l'ensemble de données
d'entraînement. "Non seulement avons-nous obtenu de bonnes
prédictions ... mais il y a aussi une sorte de cohérence anatomique",
a déclaré Yamins: Les couches précoces, intermédiaires et tardives
du CNN prédisaient respectivement les comportements des zones
cérébrales précoces, intermédiaires et supérieures . La forme a suivi
la fonction.
Kanwisher se souvient avoir été impressionnée par le résultat lors
de sa publication en 2014. «Cela ne dit pas que les unités du réseau
profond se comportent individuellement comme des neurones sur
le plan biophysique», a-t-elle déclaré. "Néanmoins, il y a une
spécificité choquante dans la correspondance fonctionnelle."
Spécialisé pour les sons
Après la parution des résultats de Yamins et DiCarlo, la chasse était
lancée pour d'autres modèles plus profonds du cerveau, en
particulier pour les régions moins bien étudiées que le système
visuel des primates. Par exemple, «nous n'avons toujours pas
vraiment une très bonne compréhension du cortex auditif, en
particulier chez les humains», a déclaré Josh McDermott ,
neuroscientifique au MIT. L'apprentissage en profondeur pourrait-il
aider à générer des hypothèses sur la façon dont le cerveau traite
les sons?
Le neuroscientifique Josh
McDermott du Massachusetts
Institute of Technology utilise des
réseaux de neurones
d'apprentissage en profondeur
pour développer de meilleurs
modèles de traitement auditif dans
le cerveau.

Justin Knight / Institut McGovern

C'est l'objectif de
McDermott. Son équipe,
qui comprenait Alexander Kell et Yamins, a commencé à concevoir
des filets profonds pour classer deux types de sons: la parole et la
musique. Tout d'abord, ils ont codé en dur un modèle de la
cochlée - l'organe de transduction du son dans l'oreille interne,
dont le fonctionnement est compris en détail - pour traiter l'audio
et trier les sons en différents canaux de fréquence en tant
qu'entrées d'un réseau neuronal convolutif. Le CNN a été formé à
la fois pour reconnaître les mots dans les clips audio de discours et
pour reconnaître les genres de clips musicaux mélangés avec du
bruit de fond. L'équipe a recherché une architecture de réseau
profond capable d'exécuter ces tâches avec précision sans avoir
besoin de beaucoup de ressources.
Trois ensembles d'architectures semblaient possibles. Les deux
tâches du deep net pouvaient partager uniquement la couche
d'entrée, puis se diviser en deux réseaux distincts. À l'autre extrême,
les tâches pourraient partager le même réseau pour tout leur
traitement et se diviser uniquement à l'étape de sortie. Ou ce
pourrait être l'une des dizaines de variantes intermédiaires, où
certaines étapes du réseau étaient partagées et d'autres étaient
distinctes.
Sans surprise, les réseaux qui avaient des voies dédiées après la
couche d'entrée ont surpassé les réseaux qui partageaient
entièrement les voies. Cependant, un réseau hybride - un avec sept
couches communes après l'étape d'entrée, puis deux réseaux
séparés de cinq couches chacun - a fait presque aussi bien que le
réseau entièrement séparé. McDermott et ses collègues ont choisi
le réseau hybride comme celui qui fonctionnait le mieux avec le
moins de ressources informatiques.
Samuel Velasco / Quanta Magazine
Quand ils ont opposé ce réseau hybride aux humains dans ces
tâches, cela correspondait bien. Cela correspondait également aux
résultats antérieurs d'un certain nombre de chercheurs qui
suggéraient que le cortex auditif non primaire avait des régions
distinctes pour le traitement de la musique et de la parole. Et dans
un test clé publié en 2018, le modèle a prédit l'activité cérébrale
chez les sujets humains: les couches intermédiaires du modèle
anticipaient les réponses du cortex auditif primaire, et les couches
plus profondes anticipaient des zones plus élevées dans le cortex
auditif. Ces prédictions étaient nettement meilleures que celles des
modèles non basés sur l'apprentissage en profondeur.

« Le but de la science est de pouvoir prédire ce que

les systèmes vont faire», a déclaré McDermott. «Ces


réseaux de neurones artificiels nous rapprochent de cet
objectif en neurosciences.»
Kanwisher, initialement sceptique quant à l'utilité de l'apprentissage
profond pour ses propres recherches, s'est inspirée des modèles de
McDermott. Kanwisher est surtout connue pour ses travaux du
milieu à la fin des années 1990 montrant qu'une région du cortex
temporal inférieur appelée zone du visage fusiforme (FFA) est
spécialisée pour l'identification des visages. Le FFA est nettement
plus actif lorsque les sujets regardent des images de visages que
lorsqu'ils regardent des images d'objets tels que des
maisons. Pourquoi le cerveau sépare-t-il le traitement des visages
de celui des autres objets?
Traditionnellement, répondre à de telles questions «pourquoi» était
difficile pour les neurosciences. Alors Kanwisher, avec sa
postdoctorante Katharina Dobs et d'autres collègues, s'est tournée
vers les filets profonds pour obtenir de l'aide. Ils ont utilisé un
successeur de vision par ordinateur à AlexNet - un réseau neuronal
convolutif beaucoup plus profond appelé VGG - et ont formé deux
réseaux profonds séparés dans des tâches spécifiques: reconnaître
les visages et reconnaître les objets.
Alexander Kell, maintenant
chercheur postdoctoral à
l'Université Columbia, a travaillé
avec McDermott au MIT sur
l'évaluation de l'efficacité de
différentes stratégies
architecturales dans la
conception de réseaux
neuronaux qui exécutaient
plusieurs tâches auditives.

Credits d'Alex Kell

L'équipe a découvert
que le réseau profond formé pour reconnaître les visages était
mauvais pour reconnaître les objets et vice versa, ce qui suggère que
ces réseaux représentent les visages et les objets
différemment. Ensuite, l'équipe a formé un seul réseau sur les deux
tâches. Ils ont constaté que le réseau s'était organisé en interne pour
séparer le traitement des visages et des objets dans les dernières
étapes du réseau. «VGG se sépare spontanément davantage aux
stades ultérieurs», a déclaré Kanwisher. «Il n'est pas nécessaire de
faire la ségrégation aux premiers stades.»
Cela concorde avec la façon dont le système visuel humain est
organisé: la ramification se produit uniquement en aval des étapes
antérieures partagées de la voie visuelle ventrale (le noyau géniculé
latéral et les zones V1 et V2). «Nous avons constaté que la
spécialisation fonctionnelle du traitement des visages et des objets a
émergé spontanément dans des filets profonds entraînés sur les
deux tâches, comme dans le cerveau humain», a déclaré Dobs, qui
travaille maintenant à l'Université Justus Liebig de Giessen, en
Allemagne.

«Ce qui est le plus excitant pour moi, c'est que je pense
que nous avons maintenant un moyen de répondre
aux questions sur la raison pour laquelle le cerveau est
tel qu'il est», a déclaré Kanwisher.
Couches de parfums
De plus en plus de preuves de ce type émergent de la recherche
portant sur la perception des odeurs. L'année dernière, le
neuroscientifique informatique Robert Yang et ses collègues de
l'Université de Columbia ont conçu un réseau profond pour
modéliser le système olfactif d'une mouche des fruits, qui a été
cartographié en détail par des neuroscientifiques.
La première couche de traitement des odeurs implique des neurones
sensoriels olfactifs, dont chacun n'exprime qu'un seul des quelque 50
types de récepteurs d'odeur. Tous les neurones sensoriels du même
type, environ 10 en moyenne, atteignent un seul cluster nerveux dans
la couche suivante de la hiérarchie de traitement. Parce qu'il y a
environ 50 de ces groupes de nerfs de chaque côté du cerveau dans
cette couche, cela établit une cartographie un-à-un entre les types
de neurones sensoriels et les groupes de nerfs correspondants. Les
grappes nerveuses ont de multiples connexions aléatoires aux
neurones de la couche suivante, appelée couche de Kenyon, qui
compte environ 2500 neurones, dont chacun reçoit environ sept
entrées. On pense que la couche de Kenyon est impliquée dans des
représentations de haut niveau des odeurs.
Pour voir s'ils pouvaient concevoir un modèle de calcul pour imiter
ce processus, Yang et ses collègues ont d'abord créé un ensemble
de données pour imiter les odeurs, qui n'activent pas les neurones
de la même manière que les images. Si vous superposez deux
images de chats, en les ajoutant pixel par pixel, l'image résultante
peut ne rien ressembler à un chat. Cependant, si vous mélangez une
odeur de deux pommes, elle sentira probablement toujours la
pomme. «C'est un aperçu critique que nous avons utilisé pour
concevoir notre tâche d'olfaction», a déclaré Yang.

Non seulement nous avons obtenu de bonnes


prédictions… mais il y a aussi une sorte de cohérence
anatomique.

Daniel Yamins, Université de Stanford


Ils ont construit leur filet profond avec quatre couches: trois qui
modélisent les couches de traitement dans la mouche des fruits et
une couche de sortie. Lorsque Yang et ses collègues ont formé ce
réseau pour classer les odeurs simulées, ils ont constaté que le
réseau convergeait vers la même connectivité que celle observée
dans le cerveau de la mouche des fruits: une cartographie un à un
de la couche 1 à la couche 2, puis et cartographie aléatoire (7 à 1)
de la couche 2 à la couche 3.
Cette similitude suggère que tant l'évolution que le filet profond ont
atteint une solution optimale. Mais Yang reste méfiant quant à leurs
résultats. «Peut-être que nous avons juste eu de la chance ici, et
peut-être que cela ne se généralise pas», dit-il.
La prochaine étape des tests consistera à faire évoluer des réseaux
profonds capables de prédire la connectivité dans le système
olfactif de certains animaux non encore étudiés, ce qui pourra
ensuite être confirmé par les neuroscientifiques. «Cela fournira un
test beaucoup plus strict de notre théorie», a déclaré Yang, qui
passera au MIT en juillet 2021.
Pas seulement des boîtes noires
Les réseaux profonds sont souvent ridiculisés pour leur incapacité à
généraliser à des données qui s'éloignent trop de l'ensemble de
données d'apprentissage. Ils sont également tristement célèbres
pour être des boîtes noires. Il est impossible d'expliquer les
décisions d'un réseau profond en examinant les millions, voire les
milliards de paramètres qui le façonnent. Un modèle en réseau
profond d'une partie du cerveau ne remplace-t-il pas simplement
une boîte noire par une autre?
Pas tout à fait, de l'avis de Yang. «C'est encore plus facile à étudier
que le cerveau», dit-il.
L'année dernière, l'équipe de DiCarlo a publié des résultats qui
prenaient à la fois l'opacité des filets profonds et leur prétendue
incapacité à généraliser. Les chercheurs ont utilisé une version
d'AlexNet pour modéliser le flux visuel ventral des macaques et ont
déterminé les correspondances entre les unités de neurones
artificiels et les sites neuronaux dans la zone V4 des singes. Puis, en
utilisant le modèle de calcul, ils ont synthétisé des images qui, selon
eux, provoqueraient des niveaux d'activité anormalement élevés
dans les neurones du singe. Dans une expérience, lorsque ces
images «non naturelles» ont été montrées à des singes, elles ont
élevé l'activité de 68% des sites neuronaux au-delà de leurs niveaux
habituels; dans un autre, les images ont augmenté l'activité dans un
neurone tout en la supprimant dans les neurones voisins. Les deux
résultats ont été prédits par le modèle de réseau neuronal.
Pour les chercheurs, ces résultats suggèrent que les filets profonds
se généralisent aux cerveaux et ne sont pas entièrement
insondables. «Cependant, nous reconnaissons que… de
nombreuses autres notions de« compréhension »restent à explorer
pour voir si et comment ces modèles ajoutent de la valeur», ont-ils
écrit.
Les convergences de structure et de performance entre les réseaux
profonds et les cerveaux ne signifient pas nécessairement qu'ils
fonctionnent de la même manière; il y a des façons dont ils ne le
font manifestement pas. Mais il se peut qu'il y ait suffisamment de
similitudes pour que les deux types de systèmes suivent les mêmes
grands principes directeurs.
Limitations des modèles
McDermott voit une valeur thérapeutique potentielle dans ces
études sur le filet profond. Aujourd'hui, lorsque les gens perdent
l'ouïe, c'est généralement en raison de changements dans
l'oreille. Le système auditif du cerveau doit faire face à l'entrée
altérée. "Donc, si nous avions de bons modèles de ce que faisait le
reste du système auditif, nous aurions une meilleure idée de ce qu'il
faut faire pour réellement aider les gens à mieux entendre", a
déclaré McDermott.
Pourtant, McDermott est prudent sur ce que les filets profonds
peuvent offrir. «Nous avons fait de gros efforts pour essayer de
comprendre les limites des réseaux de neurones en tant que
modèles», a-t-il déclaré.
Jenelle Feather, étudiante diplômée du
laboratoire de McDermott, a utilisé des
paires d'entrées audio soigneusement
conçues, appelées métamères, pour
comparer les performances des réseaux
de neurones à celles de l'audition
humaine.

Caitlin Cunningham / Institut McGovern

Dans une démonstration


frappante de ces limitations,
l'étudiante diplômée Jenelle Feather et d'autres du laboratoire de
McDermott se sont concentrées sur les métamères, qui sont des
signaux d'entrée physiquement distincts qui produisent la même
représentation dans un système. Deux métamères audio, par
exemple, ont des formes d'ondes différentes mais sonnent de la
même manière pour un humain. En utilisant un modèle de réseau
profond du système auditif, l'équipe a conçu des métamères de
signaux audio naturels; ces métamères activaient différentes étapes
du réseau neuronal de la même manière que les clips audio. Si le
réseau neuronal modélisait avec précision le système auditif
humain, alors les métamères devraient également sonner de la
même manière.
Mais ce n'est pas ce qui s'est passé. Les humains ont reconnu les
métamères qui ont produit la même activation que les clips audio
correspondants dans les premiers stades du réseau
neuronal. Cependant, cela ne vaut pas pour les métamères avec
des activations correspondantes dans les étapes plus profondes du
réseau: ces métamères sonnaient comme du bruit pour les
humains. «Ainsi, même si dans certaines circonstances, ces types de
modèles font un très bon travail de réplication du comportement
humain, il y a quelque chose qui ne va pas à leur sujet», a déclaré
McDermott.
À Stanford, Yamins explore les façons dont ces modèles ne sont
pas encore représentatifs du cerveau. Par exemple, bon nombre de
ces modèles ont besoin de nombreuses données étiquetées pour la
formation, tandis que notre cerveau peut apprendre sans effort à
partir d'un seul exemple. Des efforts sont en cours pour développer
des filets profonds non supervisés qui peuvent apprendre aussi
efficacement. Les réseaux profonds apprennent également à utiliser
un algorithme appelé propagation arrière, qui, selon la plupart des
neuroscientifiques, ne peut pas fonctionner dans un tissu neuronal
réel car il ne dispose pas des connexions appropriées. "Il y a eu de
grands progrès réalisés en termes de règles d'apprentissage un peu
plus plausibles sur le plan biologique qui fonctionnent réellement",
a déclaré Yamins.

Le but de la science est de pouvoir prédire ce que les


systèmes vont faire. Ces réseaux de neurones artificiels
nous rapprochent de cet objectif en neurosciences.

Josh McDermott, MIT


Josh Tenenbaum , un neuroscientifique cognitif au MIT, a déclaré
que si tous ces modèles du réseau profond sont de «véritables
étapes de progrès», ils effectuent principalement des tâches de
classification ou de catégorisation. Nos cerveaux, cependant, font
bien plus que catégoriser ce qui existe. Notre système de vision
peut donner un sens à la géométrie des surfaces et à la structure
3D d'une scène, et il peut raisonner sur les facteurs causaux sous-
jacents - par exemple, il peut déduire en temps réel qu'un arbre a
disparu uniquement parce qu'une voiture est passée devant de
celui-ci.
Pour comprendre cette capacité du cerveau, Ilker Yildirim,
anciennement au MIT et maintenant à l'Université de Yale, a travaillé
avec Tenenbaum et ses collègues pour construire quelque chose
appelé un modèle graphique inverse efficace. Il commence par des
paramètres qui décrivent un visage à rendre sur un arrière-plan, tels
que sa forme, sa texture, la direction de l'éclairage, la pose de la tête,
etc. Un programme d'infographie appelé modèle génératif crée une
scène 3D à partir des paramètres; puis, après différentes étapes de
traitement, il produit une image 2D de cette scène vue depuis une
certaine position. En utilisant les données 3D et 2D du modèle
génératif, les chercheurs ont formé une version modifiée d'AlexNet
pour prédire les paramètres probables d'une scène 3D à partir d'une
image 2D inconnue. «Le système apprend à reculer de l'effet à la
cause, de l'image 2D à la scène 3D qui l'a produit», a déclaré
Tenenbaum.
L'équipe a testé leur modèle en vérifiant ses prédictions sur l'activité
dans le cortex temporal inférieur des macaques rhésus. Ils ont
présenté des macaques avec 175 images, montrant 25 individus
dans sept poses, et ont enregistré les signatures neuronales à partir
de «patchs faciaux», des zones de traitement visuel spécialisées
dans la reconnaissance faciale. Ils ont également montré les images
à leur réseau d'apprentissage en profondeur. Dans le réseau,
l'activation des neurones artificiels dans la première couche
représente l'image 2D et l'activation dans la dernière couche
représente les paramètres 3D. "En cours de route, il passe par un
tas de transformations, qui semblent vous faire passer de la 2D à la
3D", a déclaré Tenenbaum. Ils ont constaté que les trois dernières
couches du réseau correspondaient remarquablement bien aux
trois dernières couches du réseau de traitement du visage des
macaques.
EN RELATION:

1. Un modèle mathématique révèle les secrets de la vision


2. Fondations conçues pour une théorie générale des réseaux de
neurones
3. Une nouvelle stratégie d'IA imite la façon dont les cerveaux
apprennent à sentir
Cela suggère que les cerveaux utilisent des combinaisons de
modèles génératifs et de reconnaissance non seulement pour
reconnaître et caractériser des objets, mais pour inférer les structures
causales inhérentes aux scènes, le tout en un instant. Tenenbaum
reconnaît que leur modèle ne prouve pas que le cerveau fonctionne
de cette façon. «Mais cela permet de poser ces questions d'une
manière mécaniste plus fine», a-t-il déclaré. «Cela devrait ... nous
motiver à le traverser.»
Note de l'éditeur: Daniel Yamins et James DiCarlo reçoivent un
financement de recherche de la Simons Collaboration on the Global
Brain , qui fait partie de la Simons Foundation, l'organisation qui
finance également ce magazine indépendant sur le plan
rédactionnel. Les décisions de financement de la Fondation Simons
n'ont aucune incidence sur la couverture de Quanta . Veuillez
consulter cette page pour plus de détails.
Cet article a été réimprimé sur Wired.com et en espagnol
sur Investigacionyciencia.es .

Vous aimerez peut-être aussi