Académique Documents
Professionnel Documents
Culture Documents
ARTICLE
https://doi.org/10.1038/s41467-021-25801-2 OUVRIR
A
système dynamique évolue dans le temps, avec des sélectionner de bonnes ou de mauvaises matrices. De plus, il
exemples tels que le système météorologique de la Terre existe plusieurs métaparamètres de RC qui peuvent grandement
et les dispositifs construits par l'homme tels que les affecter ses performances et nécessitent une optimisation9-13.
véhicules aériens sans pilote. Un exemple pratique Des travaux récents suggèrent que de bonnes matrices et de bons
L'objectif est de développer des modèles permettant de prévoir métaparamètres peuvent être identifiés en déterminant si la
leur comportement. Les approches récentes d'apprentissage dynamique du réservoir r se synchronise dans un sens généralisé
automatique (ML) peuvent générer un modèle en utilisant à X14,15, mais il n'existe pas de règles de conception connues
uniquement les données observées, mais beaucoup de ces pour obtenir une synchronisation géné- ralisée.
algorithmes ont tendance à être gourmands en données, La recherche récente sur les RC a identifié les exigences pour
nécessitant de longs temps d'observation et des ressources réaliser un approximateur général et universel des systèmes
computationnelles importantes. dynamiques. Un approximateur uni- versel peut être réalisé en
L'informatique de réservoir1,2 est un paradigme de ML qui est utilisant un RC avec une activation non linéaire aux nœuds du
particulièrement bien adapté à l'apprentissage des systèmes réseau récurrent et une couche de sortie (connue sous le nom de
dynamiques. Même lorsque les systèmes vecteur caractéristique) qui est une somme linéaire pondérée des
présentent des comportements spatio-temporels chaotiques3 ou nœuds du réseau sous les hypothèses faibles que le système
complexes4, qui sont considérés comme les problèmes les plus dynamique a des orbites bornées16.
difficiles, une méthode optimisée d'analyse de l'impact sur Moins apprécié est le fait qu'un RC avec des nœuds
l'environnement est nécessaire. d'activation linéaires combinés à un vecteur caractéristique qui
L'ordinateur réservoir (RC) peut les gérer sans problème. est une somme pondérée de fonctions non linéaires des valeurs
Comme décrit plus en détail dans la section suivante, un RC des nœuds réservoirs est un approximateur universel
est basé sur un réseau neuronal artificial récurrent avec un pool équivalent16,17. De plus, un tel RC est mathématiquement
de neurones interconnectés - le réservoir, une couche d'entrée identique à une machine d'autorégression vectorielle non linéaire
alimentant le réseau en données observées X, et une couche de (NVAR)18. Ici, aucun réservoir n'est nécessaire : le vecteur
sortie pondérant les états du réseau, comme illustré à la Fig. 1. caractéristique du NVAR est constitué de k observations
Pour éviter le problème du gradient évanescent5 pendant la temporelles du système dynamique à apprendre et de fonctions
formation, le paradigme RC attribue de manière aléatoire les non linéaires de ces observations, comme l'illustre la figure 1, un
poids des liens de la couche d'entrée et du réservoir. Seuls les résultat surprenant étant donné l'absence apparente de réservoir !
poids des liens de sortie W outsont formés via une procédure Ces résultats sont sous la forme d'une preuve d'existence : Il
d'optimisation linéaire régularisée des moindres carrés6. Il est existe un NVAR qui peut être aussi performant qu'un RC
important de noter que le optimisé et, à son tour, le RC est implicite dans un NVAR. Ici,
Le paramètre de régularisation α est fixé pour empêcher nous démontrons qu'il est facile de concevoir un NVAR
l'overfitting aux données d'entraînement de manière contrôlée et performant pour trois problèmes de référence RC difficiles : (1)
bien comprise et rend la procédure tolérante au bruit. Les RC la prévision de la dynamique à court terme ; (2) la reproduction
sont aussi performants que les autres du climat à long terme d'une
Les méthodes ML, telles que l'apprentissage profond, sur les
tâches de systèmes dynamiques, mais ont des exigences
d'ensemble de données sensiblement plus petites et des temps
d'apprentissage plus rapides7,8.
L'utilisation de matrices aléatoires dans une CR présente des
problèmes : beaucoup sont performantes, mais d'autres ne le sont
pas toutes et il y a peu de conseils pour
Fig. 1 Un RC traditionnel est implicite dans un NG-RC. (en haut) Un RC traditionnel traite les données de séries temporelles associées à un attracteur
étrange (bleu, milieu gauche) en utilisant un réseau neuronal récurrent artificial. L'attracteur étrange prévu (rouge, milieu à droite) est un poids linéaire
des états du réservoir. (en bas) Le NG- RC effectue une prévision à l'aide d'un poids linéaire des états du réservoir (deux fois illustré ici) des données
de la série temporelle et des fonctionnelles non linéaires de ces données (fonctionnelle quadratique illustrée ici).
chaotique (c'est-à-dire la reconstruction des attracteurs illustrés à Le vecteur caractéristique Ototal devient non linéaire. Un exemple
la figure 1) ; et (3) l'inférence du comportement de données non simple d'une telle RC est d'étendre le vecteur caractéristique
observées d'un système dyna- mique. linéaire standard pour inclure les valeurs au carré de tous les
La littérature récente s'est principalement concentrée sur le nœuds, qui sont obtenues par la fonction
first benchmark de la prévision à court terme de processus Produit de Hadamard Ⓢ r r¼r 2; 1r22N; ¼ ; r 2T18. Ainsi, le vecteur
stochastiques de données de séries temporelles16, mais on ne caractéristique non linéaire est donné par
saurait trop insister sur l'importance de la prévision de haute
Ⓢ rÞ ¼ r ; 1r ; 2¼ ; r ; rN2; r12 ; 2¼ ; r 2 N;
T
précision et de l'inférence de données inédites. Le NVAR, qui O¼
total
r ðr
que nous appelons le RC de nouvelle génération (NG-RC), ð4Þ
affiche des données de pointe
Les performances de l'entreprise sur ces tâches sont excellentes où ⊕ représente l'opération de concaténation de vecteurs. Un
parce qu'elles sont associées à une RC implicite, qu'elles utilisent vecteur
des ensembles de données excessivement petits et qu'elles avec une sortie non linéaire est un approximateur universel de
puissance équivalente16 et montre des performances
contournent les difficultés aléatoires et paramétriques de la mise comparables à celles du RC standard18.
en œuvre directe d'une RC traditionnelle. En revanche, le NG-RC crée un vecteur caractéristique
Nous passons briefly en revue les RC traditionnels et directement à partir des données d'entrée échantillonnées de
introduisons un RC avec des nœuds réservoirs linéaires et une manière discrète, sans qu'il soit nécessaire de recourir à un
couche de sortie non linéaire. Nous introduisons ensuite le NG- réseau neuronal.
RC et discutons des métaparamètres restants, nous présentons travail. Ici, Ototal c Olin
deux systèmes modèles que nous utilisons pour illustrer la ¼ Ononlin, où c est une constante et Ononlin est
une partie non linéaire du vecteur caractéristique. Comme un RC
perfor- mance du NG-RC, et nous présentons nos findings. traditionnel, la sortie est obtenue en utilisant ces caractéristiques
Enfin, nous discutons des implications de notre travail et des dans l'équation 3.
orientations futures. Nous abordons maintenant la formation de ces caractéristiques.
L'objectif d'un RC illustré dans le panneau supérieur de la Les caractéristiques linéaires Olin ; i au pas de temps i sont
figure 1 est de diffuser des données d'entrée X dans le réservoir composées d'observations du vecteur d'entrée X à l'étape actuelle
de dimension supérieure et aux k-1 étapes précédentes.
réseau composé de N nœuds interconnectés, puis à fois des pas espacés de s, où (s-1) est le nombre de pas sautés
hx iT
combiner l'état du réservoir qui en résulte en une sortie Y qui se entre deux observations consécutives. ¼ 1;i ; ; ¼ ; x d ; est
rapproche le plus possible de l'état du réservoir. Si Xi x2;i i
un
correspond à la sortie souhaitée Y d. La force des connexions de vecteur à d dimensions, Olin ; i a d k composantes, et est donné
nœud à nœud, représentée par la matrice de connectivité (ou
par
d'adjacence) A, est choisie aléatoirement et maintenue fixée. Les
données à traiter X sont diffusées dans le réservoir par la couche Olin ; i ¼ Xi Xi-s Xi-2s :: : Xi-ðk-1Þs:ð5Þ
d'entrée avec des coefficients aléatoires fixés W. Le réservoir est Sur la base de la théorie générale des approximateurs
un système dynamique dont la dynamique peut être représentée universels16,20, k devrait être considéré comme infiniment
par . grand. Cependant, on constate dans la pratique que la série de
r¼iþ1 1 - γ r þ γf iAr þ WX
i þ b ;i ð1Þ Volterra converge rapidement, et donc...
La troncature de k à de petites valeurs n'entraîne pas d'erreur
hr iT importante.
est également Cela peut par la prise en compte des méthodes
motivée
où ri 1;i ; ; ::: ; N ; est un vecteur à N dimensions d'intégration numérique des équations différentielles ordinaires où
¼ i avec
r2;i r seuls quelques sous-intervalles
composante r représentant l'j,iétat du jème nœud à l'instant t i, (étapes) dans un intégrateur à plusieurs étapes sont nécessaires
γ est le taux de décroissance des nœuds, f une fonction pour obtenir des résultats élevés.
d'activation appliquée à chaque composante vectorielle, et b est précision. Nous ne subdivisons pas la taille de l'étape ici, mais
un vecteur de biais de nœud. Pour simplifier, nous choisissons γ cette analogie motive pourquoi de petites valeurs de k pourraient
et b de la même façon pour tous les nœuds. Ici, le temps est donner de bonnes performances dans les tâches de prévision
discrétisé à un temps d'échantillonnage fini dt et i indique le considérées ci-dessous.
ième pas de temps de sorte que dt = t i+1-t i. Ainsi, les notations r Un aspect important du NG-RC est que sa période de
i et r i+1représentent l'état du réservoir dans des pas de temps réchauffement ne contient que (sk) pas de temps, qui sont
consécutifs. Le réservoir peut également tout aussi bien être nécessaires pour créer le vecteur caractéristique du first point à
représenté par des équations différentielles ordinaires à temps traiter. Il s'agit d'une période de préchauffage dra- matiquement
continu qui peuvent inclure la possibilité de retards le long des plus courte par rapport aux RC traditionnels, où des temps de
liens du réseau19. préchauffage plus longs sont nécessaires pour garantir que l'état
La couche de sortie exprime la sortie Y du RC i+1 sous la du réservoir ne dépend pas des conditions initiales du RC. Par
forme d'une transformation linéaire d'un vecteur caractéristique exemple, avec s = 1 et k = 2, comme utilisé dans les exemples ci-
þ
Ototal ; i 1, construit à partir de l'état r du i+1réservoir, par la relation dessous, seuls deux points de données de réchauffement sont
suivante nécessaires. Un temps de préchauffage typique dans une RC
traditionnelle pour la même tâche peut être supérieur à 103 à
105 points de données12,14. Un temps d'échauffement réduit est
Yiþ1 ¼ Ototal ; iþ1
;
particulièrement important dans les situations où il est difficile
Wout ð2Þ d'obtenir des données ou des
où Wout est la matrice des poids de sortie et l'indice total linéaire Ototal ; i 1 Olin ; i 1 ri 1 dans la couche de sortie. Le RC est
indique qu'elle peut être composée de termes constants, linéaires entraîné en utilisant une formation supervisée par le biais d'une
et non linéaires, comme expliqué ci-dessous. L'approche régularisation de
standard, communément utilisée dans la communauté RC, régression des moindres carrés. Ici, les points de données
consiste à choisir une fonction d'activation non linéaire telle que d'apprentissage génèrent un bloc de données contenu dans Ototal et
f(x) = tanh(x) pour les nœuds ¼ et un¼ þvecteur caractéristique nous faisons correspondre Y à la sortie souhaitée Y dau sens des
COMMUNICATIONS NATURE | (2021) 12:5564 | https://doi.org/10.1038/s41467-021-25801-2 |www.nature.com/naturecommunications 3
þ þ
ARTICLE COMMUNICATIONS NATURE | https://doi.org/10.1038/s41467-021-25801-2
moindres carrés en utilisant la régularisation de Tikhonov la collecte de données supplémentaires prend trop de temps.
de sorte que Wout est donné par Pour le cas d'un système dynamique piloté, Olin ð Þ t comprend
W¼ Y O T
OO T
þ également le signal de pilotage21. De même, pour un système
dans lequel un ou plusieurs paramètres accessibles du système
out d total -1
total
αI ;ð3Þ
total
ðÞ
sont ajustés, Olin t comprend également ces paramètres21 ,22.
La partie non linéaire Ononlin du vecteur caractéristique est une
fonction non linéaire de Olin. Bien qu'il y ait une grande
flexibilité dans le choix des fonctionnelles non linéaires, nous
fi n d o n s que les polynômes fournissent de bons résultats.
la capacité de prédiction. Les fonctionnelles polynomiales sont la
base d'une représentation Vol- terra pour les systèmes
dynamiques20 et constituent donc un point de départ naturel.
Nous findons que les polynômes d'ordre inférieur sont suffisants
pour obtenir des performances élevées.
Tous les monômes du polynôme quadratique, par exemple,
où le paramètre de régularisation α , également connu sous le sont par le produit externe OlinOlin, qui est une matrice
capturé
nom de paramètre de crête, est fixé pour empêcher l'overfitting symétrique avec (dk)2 éléments. Un vecteur de caractéristiques
non linéaires quadratiques
aux données d'apprentissage et I est .
ÞOð
2
the identity matrix. nonlinear par exemple, est composé des (dk) (dk+1)⁄2 uniques
Une approche différente de la RC consiste à déplacer la non- monomiales d'Olin Olin, qui sont données par les éléments
linéarité du réservoir vers la couche de sortie16,18. Dans ce cas, trian- gulaires supérieurs du tenseur de produit extérieur. Nous
les nœuds du réservoir sont choisis pour avoir une fonction défine ⌈ ⊗⌉ comme l'opérateur qui rassemble les monomiaux
uniques dans un vecteur. En utilisant
d'activation linéaire f(r) = r, tandis que les nœuds de la couche de
sortie sont choisis pour avoir une fonction d'activation linéaire.
Dans cette notation, un vecteur caractéristique polynomial d'ordre p est donné parla prise
Oð
Þ
p
¼ O lind eOlind e ¼ d eOlinð6Þ Ototal ¼ ð3
ð10Þ
non ÞO non
linéaire linéaire
Olin
avec Olin apparaissant p fois. qui a [d k+(d k) (d k+1) (d k+2)/6] composantes.
Récemment, il a été prouvé mathématiquement que la Pour ces tâches de prévision, le NG-RC apprend
méthode NVAR est équivalente à une RC linéaire à lecture non simultanément le field vectoriel et un intégrateur efficient à un
linéaire polynomiale18. Cela signifie que chaque NVAR défines pas en avant pour findir une cartographie d'un temps à l'autre
implicitement la matrice de connectivité et les autres paramètres sans avoir à apprendre chacun séparément comme dans d'autres
d'une RC traditionnelle décrite ci-dessus et que chaque RC approches d'estimation d'état non linéaires25-28. Le mappage
linéaire à lecture polynomiale peut être exprimée comme suit . d'une étape à l'avance est connu comme le flow du système dyna-
un NVAR. Cependant, le RC traditionnel est plus coûteux en
mique et donc le NG-RC apprend le flow. Pour permettre au
calcul et nécessite l'optimisation de nombreux méta-paramètres,
NG-RC de se concentrer sur les détails subtils de ce processus,
alors que le NG-RC est plus efficient et plus simple. Le NG-RC nous utilisons une étape d'intégration simple de type Euler
effectue le même travail que le RC traditionnel équivalent avec comme approximation d'ordre inférieur d'une étape de prévision
un réseau neuronal récurrent complet, mais nous n'avons pas en modifiant l'équation 2 de sorte que le NG-RC apprenne la
besoin de trouver ce réseau explicitement ou d'effectuer les différence entre l'étape actuelle et l'étape future. A cette fin,
calculs coûteux qui lui sont associés. l'équation 2 est remplacée par
Nous présentons maintenant les modèles et les tâches que
nous utilisons pour mettre en évidence les performances de NG- Xiþ1 ¼ Xi þ WoutOtotal ; i :ð11Þ
RC. Pour l'une des tâches de prévision et la tâche d'inférence Dans la troisième tâche, nous fournissons au NG-RC les trois
discutée dans la section suivante, nous générons des données variables Lor- enz63 pendant l'entraînement dans le but de
d'entraînement et de test en intégrant numériquement un modèle déduire la prédiction next-step-ahead d'une des variables à partir
simplifié d'un système météorologique23 développé par Lorenz
des autres. Pendant le test, nous ne lui fournissons que les
en 1963. Il consiste en un ensemble de trois équations
variables x et y et nous déduisons la variable z. Cette tâche est
différentielles non-linéaires couplées données par
importante pour les applications où l'on a besoin d'une prédiction
x_ ¼ 10ðy - xÞ ; y_ ¼ xð28 - zÞ- y ; z_ ¼ xy - 8z=3;ð7Þ de l'étape suivante. Cette tâche est importante pour les
où l'état X(t) ≡ [x(t),y(t),z(t)]T est un vecteur dont les compo- nents applications où il est possible d'obtenir des informations de haute
sont des observables de convection de Rayleigh-Bénard. Il qualité sur une variable dynamique dans un cadre de laboratoire,
présente un chaos déterministe, une dépendance sensible aux mais pas dans un déploiement field. Sur le field, les informations
conditions initiales-. sensorielles observables sont utilisées pour inférer les données
le fameux effet butterfly - et la trajectoire de l'espace de phase manquantes.
forme un attracteur étrange illustré à la figure 1. Pour référence
future, le temps de Lyapunov pour l'Eq. 7, qui caractérise Résultats
l'échelle de temps de divergence pour un système chaotique, est de Pour la first tâche, l'attracteur étrange de Lorenz63 de la vérité
1,1 unité de temps. Ci-dessous, nous désignons ce système sous le du sol est présenté à la figure 2a. La phase d'apprentissage
nom de Lorenz63. n'utilise que les données présentées dans la Fig. 2b-d, qui
Nous explorons également l'utilisation du NG-RC pour consiste en 400 points de données pour chaque variable avec dt
prédire la dynamique d'un circuit électronique à double = 0.025, k = 2, et s = 1. Le temps de calcul de l'apprentissage est
rouleau24 dont le comportement est gouverné par <10 ms en utilisant Python sur un processeur de bureau à un
V_1 ¼ V1= R1 - ΔV=R2 - 2Ir sinhðβΔVÞ ; seul cœur (cf.
Méthodes). Ici, Ototal a 28 composants et Wout a la dimension (3 ×
28). L'ensemble doit être suffisamment long pour que le
V_2¼ ΔV=R2 þ 2Ir sinhðβΔVÞ- I ; ð8Þ trajectoire dans l'espace de phase pour explorer les deux ailes de
l'attracteur étrange. Le tracé est superposé aux prédictions du
I_ ¼ V2 - R4I NG-RC pendant la formation ; aucune différence n'est visible à
cette échelle.
sous forme adimensionnelle, où Δ V = V 1- V 2. Ici, nous Pendant l'avant-
utilisons le Dans la phase de coulée (test), les composants de X(t) ne sont
paramètres R 1= 1.2, R 2= 3.44, R 4= 0.193, β = 11.6, et I r= plus fournis au NG-RC et la sortie prédite est réinjectée dans
2,25 × 10-5, ce qui donne un temps de Lyapunov de 7,81 unités de l'entrée. Désormais, le NG-RC est un système dynamique
temps. autonome qui prédit la dynamique des systèmes si la formation
Nous choisissons ce système parce que le field vectoriel n'est est réussie.
pas de forme polynomiale et que ΔV est suffisamment grand à Le vecteur caractéristique total utilisé pour la tâche de
certains moments pour qu'une expansion en série de Taylor prévision de Lorenz63 est donné par
tronquée de la fonction sinh donne lieu à de grandes différences
dans l'attracteur prédit. Cette tâche démontre que la forme
polynomiale du vecteur caractéristique peut fonctionner pour des
fields vectoriels non polynomiaux, comme prévu par la théorie
des représentations de Volterra des systèmes dynamiques20.
Dans les deux tâches de prévision présentées ci-dessous, nous
utilisons un NG-RC pour prévoir la dynamique de Lorenz63 et
du système à double défilement en utilisant la prévision à une
étape. Nous commençons par une ð phase
þ Þ ¼ð Þout totalen cherchant
d'écoute,
une solution à X t dt W O t , où
Wout est trouvé en utilisant la régularisation de Tikhonov6.
COMMUNICATIONS NATURE | (2021) 12:5564 | https://doi.org/10.1038/s41467-021-25801-2 |www.nature.com/naturecommunications 5
ARTICLE COMMUNICATIONS NATURE | https://doi.org/10.1038/s41467-021-25801-2
Le NG-RC est ensuite placé en phase de prédiction ; une 2. Il y a beaucoup de com- posants qui ont des poids substantiels
inspection qualitative des attracteurs étranges prédits (Fig. 2e) et qui n'apparaissent pas dans le field vectoriel de l'Eq. 7, où le
et réels (Fig. 2a) montre qu'ils sont très similaires, ce qui field vectoriel est le côté droit des équations différentielles. Cela
indique que le NG-RC reproduit le climat à long terme de donne une infor- mation quantitative concernant la différence
Lorenz63 (problème de référence 2). Comme on peut le voir sur entre le flow et le field vectoriel.
les figures 2f-h, le NG-RC fait un bon travail de prédiction de Comme le temps de Lyapunov pour le système à double
Lorenz63 (repère 1), comparable à un RC3,12,14 traditionnel défilement est beaucoup plus long que pour le système
optimisé avec des centaines ou des milliers de nœuds réservoirs. Lorenz63, nous étendons le temps d'apprentissage du NG-RC de
Le NG-RC prévoit bien jusqu'à ~5 temps de Lyapunov. 10 à 100 unités pour que le nombre de temps de Lyapunov
Dans la note complémentaire 1, nous donnons d'autres méa- couverts pendant l'apprentissage soit similaire dans les deux cas.
surements quantitatifs de la précision de la reconstruction de Afin d'assurer une comparaison équitable avec la tâche Lorenz63,
l'attracteur et des valeurs de Wout dans la note complémentaire nous avons fixé dt =
0.25. Avec ces deux changements et l'utilisation des monômes
Ototal ¼ c Olin Oð2Þ non ;
linéaire
cubiques, comme indiqué dans l'équation 10, avec d = 3, k = 2, et s
ð9Þ = 1 pour un total de
qui a [1+ d k+(d k) (d k+1)/2] composantes. 62 caractéristiques dans Ototal, le NG-RC utilise 400 points de
Pour la tâche de prévision du système double-scroll, nous données pour chaque variable pendant la formation, exactement
remarquons que l'attracteur a une symétrie impaire et a une comme dans la tâche de Lorenz63.
moyenne nulle pour toutes les variables pour les paramètres que Hormis ces modifications, notre méthode d'utilisation de la
nous utilisons. Pour respecter ces caractéristiques, nous NG- RC pour prévoir la dynamique de ce système se déroule
exactement comme pour la NG- RC.
Fig. 2 Prévision d'un système dynamique à l'aide du NG-RC. Attracteurs étranges de Lorenz63 réels (a) et prédits (e). b-d Ensemble de données
d'apprentissage avec comportement prédit superposé avec α = 2,5 × 10-6. L'erreur quadratique moyenne normalisée (NRMSE) sur un temps de
Lyapunov pendant la phase d'apprentissage est la suivante
1,06 ± 0,01 × 10-4, où l'incertitude est l'erreur standard de la moyenne. f-h Ensembles de données réels (bleu) et prédits pendant la phase de prévision.
(NRMSE = 2,40 ± 0,53 × 10-3).
Fig. 3 Prévision du système double-scroll à l'aide du NG-RC. Attracteurs étranges réels (a) et prédits (e) du système double-scroll. b-d Ensemble de
données d'entraînement avec comportement prédit superposé. f-h Ensembles de données réels (bleu) et prédits pendant la phase de prévision (NRMSE =
4,5 ± 1,0 × 10-3).
Discussion
Le NG-RC est plus rapide en termes de calcul qu'un RC
traditionnel parce que la taille du vecteur de caractéristiques est
beaucoup plus petite, ce qui signifie qu'il y a moins de
paramètres ajustables qui doivent être déterminés, comme
discuté dans les notes supplémentaires 3 et 4. Nous pensons que
la taille de l'ensemble de données d'entraînement est réduite
précisément parce qu'il y a moins de paramètres fit. De plus,
comme mentionné ci-dessus, le temps d'échauffement et
d'entraînement est plus court, ce qui réduit le temps de calcul.
Enfin, le NG- RC a moins de métaparamètres à optimiser,
évitant ainsi la procédure d'optimisation coûteuse en calcul dans
un espace de paramètres à haute dimension. Comme détaillé
dans la note supplémentaire 3, nous estimons la complexité de
calcul pour la tâche de prévision Lor- enz63 et findons que le
NG-RC est ~33-162 fois moins coûteux à simuler qu'un RC
traditionnel typique déjà efficient12, et plus de 106 fois moins
coûteux pour un RC tradi- tionnel de haute précision14 pour un
seul ensemble de métaparamètres. Pour le système à double
défilement, où le NG-RC a une non-linéarité cubique et donc
plus de caractéristiques, l'amélioration est un facteur plus
modeste de 8 à 41 par rapport à une RC12 traditionnelle
typiquement efficient pour un seul ensemble de métaparamètres.
COMMUNICATIONS NATURE | (2021) 12:5564 | https://doi.org/10.1038/s41467-021-25801-2 |www.nature.com/naturecommunications 9
ARTICLE COMMUNICATIONS NATURE | https://doi.org/10.1038/s41467-021-25801-2
Disponibilité du code
Tout le code est disponible sous une licence MIT sur Github
(https://github.com/quantinfo/ng- rc-paper-code)38.
Références
1. Jaeger, H. & Haas, H. Harnessing nonlinearity : predicting chaotic systems
and saving energy in wireless communication. Science 304, 78-80 (2004).
2. Maass, W., Natschläger, T. & Markram, H. Real-time computing without
stable states : a new framework for neural computation based on
perturbations. Neural Comput. 14, 2531–2560 (2002).
3. Pathak, J., Lu, Z., Hunt, B. R., Girvan, M. & Ott, E. Utiliser l'apprentissage
automatique pour répliquer les attracteurs chaotiques et calculer les exposants
de Lyapunov à partir des données. Chaos 27, 121102 (2017).
4. Pathak, J., Hunt, B., Girvan, M., Lu, Z. & Ott, E. Model-free prediction of large
spatiotemporally chaotic systems from data : a reservoir computing approach.
Phys. Rev. Lett. 120, 24102 (2018).
5. Bengio, Y., Boulanger-Lewandowski, N. & Pascanu, R. Advances in optimizing
recurrent networks. 2013 IEEE International Conference on Acoustics, Speech
and Signal Processing, 2013, pp. 8624-8628 https://doi.org/10.1109/
ICASSP.2013.6639349 (2013).
6. Vogel, C. R. Computational Methods for Inverse Problems (Society
for Industrial and Applied Mathematics, 2002).
7. Vlachas, P. R. et al. Backpropagation algorithms and reservoir computing in
recurrent neural networks for the forecasting of complex spatiotemporal
dynamics. Neural Netw. 126, 191-217 (2020).
8. Bompas, S., Georgeot, B. & Guéry-Odelin, D. Précision des réseaux de neurones
pour la simulation de dynamiques chaotiques : précision des données
d'entraînement vs précision de l'algorithme. Chaos 30, 113118 (2020).
9. Yperman, J. & Becker, T. Optimisation bayésienne des hyperparamètres
en calcul de réservoir. Préprint à arXiv:1611.0519 (2016).
10. Livi, L., Bianchi, F. M. & Alippi, C. Détermination du bord de criticité dans
les réseaux d'état d'écho par la maximisation de l'information fisher. IEEE
Trans. Neural Netw. Learn. Syst. 29, 706–717 (2018).
11. Thiede, L. A. & Parlitz, U. Optimisation des hyperparamètres basée sur le
gradient dans les réseaux d'état d'écho. Neural Netw. 115, 23-29 (2019).
12. Griffith, A., Pomerance, A. & Gauthier, D. J. Forecasting chaotic systems
with very low connectivity reservoir computers. Chaos 29, 123108 (2019).
13. Antonik, P., Marsal, N., Brunner, D. & Rontani, D. Bayesian optimisation of
large-scale photonic reservoir computers. Cogn. Comput. 2021, 1–9 (2021).
14. Lu, Z., Hunt, B. R. & Ott, E. Attractor reconstruction by machine learning.
Chaos 28, 061104 (2018).
15. Platt, J. A., Wong, A. S., Clark, R., Penny, S. G. & Abarbanel, H. D. I.
Robust forecasting through generalized synchronization in reservoir
computing. Préprint à arXiv:2103.0036 (2021).
16. Gonon, L. & Ortega, J. P. Reservoir computing universality with stochastic
inputs. IEEE Trans. Neural Netw. Learn. Syst. 31, 100–112 (2020).
17. Hart, A. G., Hook, J. L. & Dawes, J. H. P. Echo state networks trained by
Tikhonov least squares are L2(μ) approximators of ergodic dynamical systems.
Phys. D. Nonlinear Phenom. 421, 132882 (2021).
18. Bollt, E. On explaining the surprising success of reservoir computing
forecaster of chaos ? Le système dynamique universel d'apprentissage de la
machine en contraste avec le VAR et le DMD. Chaos 31, 013108 (2021).
19. Gauthier, D. J. Reservoir computing : harnessing a universal dynamical
system.
SIAM News 51, 12 (2018).
20. Franz, M. O. & Schölkopf, B. A unifying view of Wiener and Volterra
theoryand polynomial kernel regression. Neural. Comput. 18, 3097–3118
(2006).
21. Billings, S. A. Identification de systèmes non linéaires (John Wiley & Sons, Ltd.,
2013).
22. Kim, J. Z., Lu, Z., Nozari, E., Papas, G. J. & Bassett, D. S. Teaching
recurrent neural networks to infer global temporal structure from local
Remerciements
Nous remercions Henry Abarbanel, Ingo Fischer et Kathy Lüdge pour leurs
discussions. D.J.G. est soutenu par l'United States Air Force AFRL/SBRK dans le
cadre du contrat n° FA864921P0087. E.B. est soutenu par l'ARO (N68164-EG) et le
DARPA.
Intérêts concurrents
D.J.G. a des intérêts financiers en tant que cofondateur de ResCon Technologies,
LCC, qui commercialise les CR. Les autres auteurs ne déclarent aucun intérêt
concurrent.
Informations complémentaires
Informations complémentaires La version en ligne contient des informations
complémentaires disponibles sur le site https://doi.org/10.1038/s41467-021-25801-2.
Informations sur l'évaluation par les pairs Nature Communications remercie Serhiy
Yanchuk et les autres évaluateurs anonymes pour leur contribution à l'évaluation par
les pairs de ce travail. Les rapports d'évaluation par les pairs sont disponibles.
Accès libre Cet article est placé sous licence Creative Commons
Attribution 4.0 International License, qui permet l'utilisation, le partage,
l'adaptation, la distribution et la reproduction sur n'importe quel support ou dans
n'importe quel format, à condition de créditer de manière appropriée le ou les auteurs
originaux et la source, de fournir un lien vers la licence Creative Commons et d'indiquer
si des modifications ont été apportées. Les images ou tout autre matériel tiers figurant
dans cet article sont inclus dans la licence Creative Commons de l'article, sauf
indication contraire dans une ligne de crédit vers le matériel. Si le matériel n'est pas
inclus dans la licence Creative Commons de l'article et que l'usage que vous souhaitez
en faire n'est pas autorisé par la réglementation ou dépasse l'usage autorisé, vous devrez
obtenir l'autorisation directement auprès du détenteur du droit d'auteur. Pour consulter
une copie de cette licence, rendez-vous sur http://creativecommons.org/ licenses/by/4.0/.