Vous êtes sur la page 1sur 15

Abonnez-vous à DeepL Pro pour éditer ce document.

Visitez www.DeepL.com/pro pour en savoir plus.

ARTICLE
https://doi.org/10.1038/s41467-021-25801-2 OUVRIR

Calcul de réservoir de nouvelle génération


Daniel J. Gauthier1 ,2 ✉ , Erik Bollt3,4, Aaron Griffith1 et Wendson A. S. Barbosa1

Le calcul des réservoirs est un algorithme d'apprentissage automatique de premier ordre


pour le traitement des informations générées par les systèmes dynamiques à l'aide de
données chronologiques observées. Il est important de noter qu'il nécessite de très petits
ensembles de données d'apprentissage, qu'il utilise l'optimisation linéaire et qu'il requiert
donc des ressources informatiques minimales. Cependant, l'algorithme utilise des matrices
échantillonnées de façon aléatoire pour défine le réseau neuronal récurrent sous-jacent et
possède une multitude de métaparamètres qui doivent être optimisés. Des résultats
récents démontrent l'équivalence du calcul de réservoir avec l'autorégression vectorielle
non linéaire, qui ne nécessite pas de matrices aléatoires, moins de métaparamètres, et
fournit des résultats interprétables. Nous démontrons ici que l'autorégression vectorielle
non linéaire excelle dans les tâches de référence du calcul de réservoir et nécessite des
ensembles de données d'entraînement et un temps d'entraînement encore plus courts,
annonçant ainsi la prochaine génération de calcul de réservoir.

COMMUNICATIONS NATURE | (2021) 12:5564 | https://doi.org/10.1038/s41467-021-25801-2 |www.nature.com/naturecommunications 1


1
Université d'État de l'Ohio, Département de physique, 191 West Woodruff Ave, Columbus, OH 43210, États-Unis. 2 ResCon Technologies, LLC, PO Box 21229
Columbus, OH 43221, USA. 3Clarkson University, Department of Electrical and Computer Engineering, Potsdam, NY 13669, États-Unis. 4Centre Clarkson pour
Science des systèmes complexes (C3S2), Potsdam, NY 13699, États-Unis. ✉email : gauthier.51@osu.edu

2 COMMUNICATIONS NATURE | (2021) 12:5564 | https://doi.org/10.1038/s41467-021-25801-2 |www.nature.com/naturecommunications


COMMUNICATIONS NATURE | https://doi.org/10.1038/s41467-021-25801-2 ARTICLE

A
système dynamique évolue dans le temps, avec des sélectionner de bonnes ou de mauvaises matrices. De plus, il
exemples tels que le système météorologique de la Terre existe plusieurs métaparamètres de RC qui peuvent grandement
et les dispositifs construits par l'homme tels que les affecter ses performances et nécessitent une optimisation9-13.
véhicules aériens sans pilote. Un exemple pratique Des travaux récents suggèrent que de bonnes matrices et de bons
L'objectif est de développer des modèles permettant de prévoir métaparamètres peuvent être identifiés en déterminant si la
leur comportement. Les approches récentes d'apprentissage dynamique du réservoir r se synchronise dans un sens généralisé
automatique (ML) peuvent générer un modèle en utilisant à X14,15, mais il n'existe pas de règles de conception connues
uniquement les données observées, mais beaucoup de ces pour obtenir une synchronisation géné- ralisée.
algorithmes ont tendance à être gourmands en données, La recherche récente sur les RC a identifié les exigences pour
nécessitant de longs temps d'observation et des ressources réaliser un approximateur général et universel des systèmes
computationnelles importantes. dynamiques. Un approximateur uni- versel peut être réalisé en
L'informatique de réservoir1,2 est un paradigme de ML qui est utilisant un RC avec une activation non linéaire aux nœuds du
particulièrement bien adapté à l'apprentissage des systèmes réseau récurrent et une couche de sortie (connue sous le nom de
dynamiques. Même lorsque les systèmes vecteur caractéristique) qui est une somme linéaire pondérée des
présentent des comportements spatio-temporels chaotiques3 ou nœuds du réseau sous les hypothèses faibles que le système
complexes4, qui sont considérés comme les problèmes les plus dynamique a des orbites bornées16.
difficiles, une méthode optimisée d'analyse de l'impact sur Moins apprécié est le fait qu'un RC avec des nœuds
l'environnement est nécessaire. d'activation linéaires combinés à un vecteur caractéristique qui
L'ordinateur réservoir (RC) peut les gérer sans problème. est une somme pondérée de fonctions non linéaires des valeurs
Comme décrit plus en détail dans la section suivante, un RC des nœuds réservoirs est un approximateur universel
est basé sur un réseau neuronal artificial récurrent avec un pool équivalent16,17. De plus, un tel RC est mathématiquement
de neurones interconnectés - le réservoir, une couche d'entrée identique à une machine d'autorégression vectorielle non linéaire
alimentant le réseau en données observées X, et une couche de (NVAR)18. Ici, aucun réservoir n'est nécessaire : le vecteur
sortie pondérant les états du réseau, comme illustré à la Fig. 1. caractéristique du NVAR est constitué de k observations
Pour éviter le problème du gradient évanescent5 pendant la temporelles du système dynamique à apprendre et de fonctions
formation, le paradigme RC attribue de manière aléatoire les non linéaires de ces observations, comme l'illustre la figure 1, un
poids des liens de la couche d'entrée et du réservoir. Seuls les résultat surprenant étant donné l'absence apparente de réservoir !
poids des liens de sortie W outsont formés via une procédure Ces résultats sont sous la forme d'une preuve d'existence : Il
d'optimisation linéaire régularisée des moindres carrés6. Il est existe un NVAR qui peut être aussi performant qu'un RC
important de noter que le optimisé et, à son tour, le RC est implicite dans un NVAR. Ici,
Le paramètre de régularisation α est fixé pour empêcher nous démontrons qu'il est facile de concevoir un NVAR
l'overfitting aux données d'entraînement de manière contrôlée et performant pour trois problèmes de référence RC difficiles : (1)
bien comprise et rend la procédure tolérante au bruit. Les RC la prévision de la dynamique à court terme ; (2) la reproduction
sont aussi performants que les autres du climat à long terme d'une
Les méthodes ML, telles que l'apprentissage profond, sur les
tâches de systèmes dynamiques, mais ont des exigences
d'ensemble de données sensiblement plus petites et des temps
d'apprentissage plus rapides7,8.
L'utilisation de matrices aléatoires dans une CR présente des
problèmes : beaucoup sont performantes, mais d'autres ne le sont
pas toutes et il y a peu de conseils pour

COMMUNICATIONS NATURE | (2021) 12:5564 | https://doi.org/10.1038/s41467-021-25801-2 |www.nature.com/naturecommunications 3


ARTICLE COMMUNICATIONS NATURE | https://doi.org/10.1038/s41467-021-25801-2

Fig. 1 Un RC traditionnel est implicite dans un NG-RC. (en haut) Un RC traditionnel traite les données de séries temporelles associées à un attracteur
étrange (bleu, milieu gauche) en utilisant un réseau neuronal récurrent artificial. L'attracteur étrange prévu (rouge, milieu à droite) est un poids linéaire
des états du réservoir. (en bas) Le NG- RC effectue une prévision à l'aide d'un poids linéaire des états du réservoir (deux fois illustré ici) des données
de la série temporelle et des fonctionnelles non linéaires de ces données (fonctionnelle quadratique illustrée ici).

4 COMMUNICATIONS NATURE | (2021) 12:5564 | https://doi.org/10.1038/s41467-021-25801-2 |www.nature.com/naturecommunications


COMMUNICATIONS NATURE | https://doi.org/10.1038/s41467-021-25801-2 ARTICLE

chaotique (c'est-à-dire la reconstruction des attracteurs illustrés à Le vecteur caractéristique Ototal devient non linéaire. Un exemple
la figure 1) ; et (3) l'inférence du comportement de données non simple d'une telle RC est d'étendre le vecteur caractéristique
observées d'un système dyna- mique. linéaire standard pour inclure les valeurs au carré de tous les
La littérature récente s'est principalement concentrée sur le nœuds, qui sont obtenues par la fonction
first benchmark de la prévision à court terme de processus Produit de Hadamard Ⓢ r r¼r 2; 1r22N; ¼ ; r 2T18. Ainsi, le vecteur
stochastiques de données de séries temporelles16, mais on ne caractéristique non linéaire est donné par
saurait trop insister sur l'importance de la prévision de haute
Ⓢ rÞ ¼ r ; 1r ; 2¼ ; r ; rN2; r12 ; 2¼ ; r 2 N;
T
précision et de l'inférence de données inédites. Le NVAR, qui O¼
total
r ðr
que nous appelons le RC de nouvelle génération (NG-RC), ð4Þ
affiche des données de pointe
Les performances de l'entreprise sur ces tâches sont excellentes où ⊕ représente l'opération de concaténation de vecteurs. Un
parce qu'elles sont associées à une RC implicite, qu'elles utilisent vecteur
des ensembles de données excessivement petits et qu'elles avec une sortie non linéaire est un approximateur universel de
puissance équivalente16 et montre des performances
contournent les difficultés aléatoires et paramétriques de la mise comparables à celles du RC standard18.
en œuvre directe d'une RC traditionnelle. En revanche, le NG-RC crée un vecteur caractéristique
Nous passons briefly en revue les RC traditionnels et directement à partir des données d'entrée échantillonnées de
introduisons un RC avec des nœuds réservoirs linéaires et une manière discrète, sans qu'il soit nécessaire de recourir à un
couche de sortie non linéaire. Nous introduisons ensuite le NG- réseau neuronal.
RC et discutons des métaparamètres restants, nous présentons travail. Ici, Ototal c Olin
deux systèmes modèles que nous utilisons pour illustrer la ¼ Ononlin, où c est une constante et Ononlin est
une partie non linéaire du vecteur caractéristique. Comme un RC
perfor- mance du NG-RC, et nous présentons nos findings. traditionnel, la sortie est obtenue en utilisant ces caractéristiques
Enfin, nous discutons des implications de notre travail et des dans l'équation 3.
orientations futures. Nous abordons maintenant la formation de ces caractéristiques.
L'objectif d'un RC illustré dans le panneau supérieur de la Les caractéristiques linéaires Olin ; i au pas de temps i sont
figure 1 est de diffuser des données d'entrée X dans le réservoir composées d'observations du vecteur d'entrée X à l'étape actuelle
de dimension supérieure et aux k-1 étapes précédentes.
réseau composé de N nœuds interconnectés, puis à fois des pas espacés de s, où (s-1) est le nombre de pas sautés
hx iT
combiner l'état du réservoir qui en résulte en une sortie Y qui se entre deux observations consécutives. ¼ 1;i ; ; ¼ ; x d ; est
rapproche le plus possible de l'état du réservoir. Si Xi x2;i i
un
correspond à la sortie souhaitée Y d. La force des connexions de vecteur à d dimensions, Olin ; i a d k composantes, et est donné
nœud à nœud, représentée par la matrice de connectivité (ou
par
d'adjacence) A, est choisie aléatoirement et maintenue fixée. Les
données à traiter X sont diffusées dans le réservoir par la couche Olin ; i ¼ Xi Xi-s Xi-2s :: : Xi-ðk-1Þs:ð5Þ
d'entrée avec des coefficients aléatoires fixés W. Le réservoir est Sur la base de la théorie générale des approximateurs
un système dynamique dont la dynamique peut être représentée universels16,20, k devrait être considéré comme infiniment
par . grand. Cependant, on constate dans la pratique que la série de
r¼iþ1 1 - γ r þ γf iAr þ WX
i þ b ;i ð1Þ Volterra converge rapidement, et donc...
La troncature de k à de petites valeurs n'entraîne pas d'erreur
hr iT importante.
est également Cela peut par la prise en compte des méthodes
motivée
où ri 1;i ; ; ::: ; N ; est un vecteur à N dimensions d'intégration numérique des équations différentielles ordinaires où
¼ i avec
r2;i r seuls quelques sous-intervalles
composante r représentant l'j,iétat du jème nœud à l'instant t i, (étapes) dans un intégrateur à plusieurs étapes sont nécessaires
γ est le taux de décroissance des nœuds, f une fonction pour obtenir des résultats élevés.
d'activation appliquée à chaque composante vectorielle, et b est précision. Nous ne subdivisons pas la taille de l'étape ici, mais
un vecteur de biais de nœud. Pour simplifier, nous choisissons γ cette analogie motive pourquoi de petites valeurs de k pourraient
et b de la même façon pour tous les nœuds. Ici, le temps est donner de bonnes performances dans les tâches de prévision
discrétisé à un temps d'échantillonnage fini dt et i indique le considérées ci-dessous.
ième pas de temps de sorte que dt = t i+1-t i. Ainsi, les notations r Un aspect important du NG-RC est que sa période de
i et r i+1représentent l'état du réservoir dans des pas de temps réchauffement ne contient que (sk) pas de temps, qui sont
consécutifs. Le réservoir peut également tout aussi bien être nécessaires pour créer le vecteur caractéristique du first point à
représenté par des équations différentielles ordinaires à temps traiter. Il s'agit d'une période de préchauffage dra- matiquement
continu qui peuvent inclure la possibilité de retards le long des plus courte par rapport aux RC traditionnels, où des temps de
liens du réseau19. préchauffage plus longs sont nécessaires pour garantir que l'état
La couche de sortie exprime la sortie Y du RC i+1 sous la du réservoir ne dépend pas des conditions initiales du RC. Par
forme d'une transformation linéaire d'un vecteur caractéristique exemple, avec s = 1 et k = 2, comme utilisé dans les exemples ci-
þ
Ototal ; i 1, construit à partir de l'état r du i+1réservoir, par la relation dessous, seuls deux points de données de réchauffement sont
suivante nécessaires. Un temps de préchauffage typique dans une RC
traditionnelle pour la même tâche peut être supérieur à 103 à
105 points de données12,14. Un temps d'échauffement réduit est
Yiþ1 ¼ Ototal ; iþ1
;
particulièrement important dans les situations où il est difficile
Wout ð2Þ d'obtenir des données ou des
où Wout est la matrice des poids de sortie et l'indice total linéaire Ototal ; i 1 Olin ; i 1 ri 1 dans la couche de sortie. Le RC est
indique qu'elle peut être composée de termes constants, linéaires entraîné en utilisant une formation supervisée par le biais d'une
et non linéaires, comme expliqué ci-dessous. L'approche régularisation de
standard, communément utilisée dans la communauté RC, régression des moindres carrés. Ici, les points de données
consiste à choisir une fonction d'activation non linéaire telle que d'apprentissage génèrent un bloc de données contenu dans Ototal et
f(x) = tanh(x) pour les nœuds ¼ et un¼ þvecteur caractéristique nous faisons correspondre Y à la sortie souhaitée Y dau sens des
COMMUNICATIONS NATURE | (2021) 12:5564 | https://doi.org/10.1038/s41467-021-25801-2 |www.nature.com/naturecommunications 3
þ þ
ARTICLE COMMUNICATIONS NATURE | https://doi.org/10.1038/s41467-021-25801-2

moindres carrés en utilisant la régularisation de Tikhonov la collecte de données supplémentaires prend trop de temps.
de sorte que Wout est donné par Pour le cas d'un système dynamique piloté, Olin ð Þ t comprend
W¼ Y O T
OO T
þ également le signal de pilotage21. De même, pour un système
dans lequel un ou plusieurs paramètres accessibles du système
out d total -1
total
αI ;ð3Þ
total
ðÞ
sont ajustés, Olin t comprend également ces paramètres21 ,22.
La partie non linéaire Ononlin du vecteur caractéristique est une
fonction non linéaire de Olin. Bien qu'il y ait une grande
flexibilité dans le choix des fonctionnelles non linéaires, nous
fi n d o n s que les polynômes fournissent de bons résultats.
la capacité de prédiction. Les fonctionnelles polynomiales sont la
base d'une représentation Vol- terra pour les systèmes
dynamiques20 et constituent donc un point de départ naturel.
Nous findons que les polynômes d'ordre inférieur sont suffisants
pour obtenir des performances élevées.
Tous les monômes du polynôme quadratique, par exemple,
où le paramètre de régularisation α , également connu sous le sont par le produit externe OlinOlin, qui est une matrice
capturé
nom de paramètre de crête, est fixé pour empêcher l'overfitting symétrique avec (dk)2 éléments. Un vecteur de caractéristiques
non linéaires quadratiques
aux données d'apprentissage et I est .
ÞOð
2
the identity matrix. nonlinear par exemple, est composé des (dk) (dk+1)⁄2 uniques
Une approche différente de la RC consiste à déplacer la non- monomiales d'Olin Olin, qui sont données par les éléments
linéarité du réservoir vers la couche de sortie16,18. Dans ce cas, trian- gulaires supérieurs du tenseur de produit extérieur. Nous
les nœuds du réservoir sont choisis pour avoir une fonction défine ⌈ ⊗⌉ comme l'opérateur qui rassemble les monomiaux
uniques dans un vecteur. En utilisant
d'activation linéaire f(r) = r, tandis que les nœuds de la couche de
sortie sont choisis pour avoir une fonction d'activation linéaire.

4 COMMUNICATIONS NATURE | (2021) 12:5564 | https://doi.org/10.1038/s41467-021-25801-2 |www.nature.com/naturecommunications


COMMUNICATIONS NATURE | https://doi.org/10.1038/s41467-021-25801-2 ARTICLE

Dans cette notation, un vecteur caractéristique polynomial d'ordre p est donné parla prise

Þ
p
¼ O lind eOlind e ¼ d eOlinð6Þ Ototal ¼ ð3
ð10Þ
non ÞO non
linéaire linéaire
Olin
avec Olin apparaissant p fois. qui a [d k+(d k) (d k+1) (d k+2)/6] composantes.
Récemment, il a été prouvé mathématiquement que la Pour ces tâches de prévision, le NG-RC apprend
méthode NVAR est équivalente à une RC linéaire à lecture non simultanément le field vectoriel et un intégrateur efficient à un
linéaire polynomiale18. Cela signifie que chaque NVAR défines pas en avant pour findir une cartographie d'un temps à l'autre
implicitement la matrice de connectivité et les autres paramètres sans avoir à apprendre chacun séparément comme dans d'autres
d'une RC traditionnelle décrite ci-dessus et que chaque RC approches d'estimation d'état non linéaires25-28. Le mappage
linéaire à lecture polynomiale peut être exprimée comme suit . d'une étape à l'avance est connu comme le flow du système dyna-
un NVAR. Cependant, le RC traditionnel est plus coûteux en
mique et donc le NG-RC apprend le flow. Pour permettre au
calcul et nécessite l'optimisation de nombreux méta-paramètres,
NG-RC de se concentrer sur les détails subtils de ce processus,
alors que le NG-RC est plus efficient et plus simple. Le NG-RC nous utilisons une étape d'intégration simple de type Euler
effectue le même travail que le RC traditionnel équivalent avec comme approximation d'ordre inférieur d'une étape de prévision
un réseau neuronal récurrent complet, mais nous n'avons pas en modifiant l'équation 2 de sorte que le NG-RC apprenne la
besoin de trouver ce réseau explicitement ou d'effectuer les différence entre l'étape actuelle et l'étape future. A cette fin,
calculs coûteux qui lui sont associés. l'équation 2 est remplacée par
Nous présentons maintenant les modèles et les tâches que
nous utilisons pour mettre en évidence les performances de NG- Xiþ1 ¼ Xi þ WoutOtotal ; i :ð11Þ
RC. Pour l'une des tâches de prévision et la tâche d'inférence Dans la troisième tâche, nous fournissons au NG-RC les trois
discutée dans la section suivante, nous générons des données variables Lor- enz63 pendant l'entraînement dans le but de
d'entraînement et de test en intégrant numériquement un modèle déduire la prédiction next-step-ahead d'une des variables à partir
simplifié d'un système météorologique23 développé par Lorenz
des autres. Pendant le test, nous ne lui fournissons que les
en 1963. Il consiste en un ensemble de trois équations
variables x et y et nous déduisons la variable z. Cette tâche est
différentielles non-linéaires couplées données par
importante pour les applications où l'on a besoin d'une prédiction
x_ ¼ 10ðy - xÞ ; y_ ¼ xð28 - zÞ- y ; z_ ¼ xy - 8z=3;ð7Þ de l'étape suivante. Cette tâche est importante pour les
où l'état X(t) ≡ [x(t),y(t),z(t)]T est un vecteur dont les compo- nents applications où il est possible d'obtenir des informations de haute
sont des observables de convection de Rayleigh-Bénard. Il qualité sur une variable dynamique dans un cadre de laboratoire,
présente un chaos déterministe, une dépendance sensible aux mais pas dans un déploiement field. Sur le field, les informations
conditions initiales-. sensorielles observables sont utilisées pour inférer les données
le fameux effet butterfly - et la trajectoire de l'espace de phase manquantes.
forme un attracteur étrange illustré à la figure 1. Pour référence
future, le temps de Lyapunov pour l'Eq. 7, qui caractérise Résultats
l'échelle de temps de divergence pour un système chaotique, est de Pour la first tâche, l'attracteur étrange de Lorenz63 de la vérité
1,1 unité de temps. Ci-dessous, nous désignons ce système sous le du sol est présenté à la figure 2a. La phase d'apprentissage
nom de Lorenz63. n'utilise que les données présentées dans la Fig. 2b-d, qui
Nous explorons également l'utilisation du NG-RC pour consiste en 400 points de données pour chaque variable avec dt
prédire la dynamique d'un circuit électronique à double = 0.025, k = 2, et s = 1. Le temps de calcul de l'apprentissage est
rouleau24 dont le comportement est gouverné par <10 ms en utilisant Python sur un processeur de bureau à un
V_1 ¼ V1= R1 - ΔV=R2 - 2Ir sinhðβΔVÞ ; seul cœur (cf.
Méthodes). Ici, Ototal a 28 composants et Wout a la dimension (3 ×
28). L'ensemble doit être suffisamment long pour que le
V_2¼ ΔV=R2 þ 2Ir sinhðβΔVÞ- I ; ð8Þ trajectoire dans l'espace de phase pour explorer les deux ailes de
l'attracteur étrange. Le tracé est superposé aux prédictions du
I_ ¼ V2 - R4I NG-RC pendant la formation ; aucune différence n'est visible à
cette échelle.
sous forme adimensionnelle, où Δ V = V 1- V 2. Ici, nous Pendant l'avant-
utilisons le Dans la phase de coulée (test), les composants de X(t) ne sont
paramètres R 1= 1.2, R 2= 3.44, R 4= 0.193, β = 11.6, et I r= plus fournis au NG-RC et la sortie prédite est réinjectée dans
2,25 × 10-5, ce qui donne un temps de Lyapunov de 7,81 unités de l'entrée. Désormais, le NG-RC est un système dynamique
temps. autonome qui prédit la dynamique des systèmes si la formation
Nous choisissons ce système parce que le field vectoriel n'est est réussie.
pas de forme polynomiale et que ΔV est suffisamment grand à Le vecteur caractéristique total utilisé pour la tâche de
certains moments pour qu'une expansion en série de Taylor prévision de Lorenz63 est donné par
tronquée de la fonction sinh donne lieu à de grandes différences
dans l'attracteur prédit. Cette tâche démontre que la forme
polynomiale du vecteur caractéristique peut fonctionner pour des
fields vectoriels non polynomiaux, comme prévu par la théorie
des représentations de Volterra des systèmes dynamiques20.
Dans les deux tâches de prévision présentées ci-dessous, nous
utilisons un NG-RC pour prévoir la dynamique de Lorenz63 et
du système à double défilement en utilisant la prévision à une
étape. Nous commençons par une ð phase
þ Þ ¼ð Þout totalen cherchant
d'écoute,
une solution à X t dt W O t , où
Wout est trouvé en utilisant la régularisation de Tikhonov6.
COMMUNICATIONS NATURE | (2021) 12:5564 | https://doi.org/10.1038/s41467-021-25801-2 |www.nature.com/naturecommunications 5
ARTICLE COMMUNICATIONS NATURE | https://doi.org/10.1038/s41467-021-25801-2

Le NG-RC est ensuite placé en phase de prédiction ; une 2. Il y a beaucoup de com- posants qui ont des poids substantiels
inspection qualitative des attracteurs étranges prédits (Fig. 2e) et qui n'apparaissent pas dans le field vectoriel de l'Eq. 7, où le
et réels (Fig. 2a) montre qu'ils sont très similaires, ce qui field vectoriel est le côté droit des équations différentielles. Cela
indique que le NG-RC reproduit le climat à long terme de donne une infor- mation quantitative concernant la différence
Lorenz63 (problème de référence 2). Comme on peut le voir sur entre le flow et le field vectoriel.
les figures 2f-h, le NG-RC fait un bon travail de prédiction de Comme le temps de Lyapunov pour le système à double
Lorenz63 (repère 1), comparable à un RC3,12,14 traditionnel défilement est beaucoup plus long que pour le système
optimisé avec des centaines ou des milliers de nœuds réservoirs. Lorenz63, nous étendons le temps d'apprentissage du NG-RC de
Le NG-RC prévoit bien jusqu'à ~5 temps de Lyapunov. 10 à 100 unités pour que le nombre de temps de Lyapunov
Dans la note complémentaire 1, nous donnons d'autres méa- couverts pendant l'apprentissage soit similaire dans les deux cas.
surements quantitatifs de la précision de la reconstruction de Afin d'assurer une comparaison équitable avec la tâche Lorenz63,
l'attracteur et des valeurs de Wout dans la note complémentaire nous avons fixé dt =
0.25. Avec ces deux changements et l'utilisation des monômes
Ototal ¼ c Olin Oð2Þ non ;
linéaire
cubiques, comme indiqué dans l'équation 10, avec d = 3, k = 2, et s
ð9Þ = 1 pour un total de
qui a [1+ d k+(d k) (d k+1)/2] composantes. 62 caractéristiques dans Ototal, le NG-RC utilise 400 points de
Pour la tâche de prévision du système double-scroll, nous données pour chaque variable pendant la formation, exactement
remarquons que l'attracteur a une symétrie impaire et a une comme dans la tâche de Lorenz63.
moyenne nulle pour toutes les variables pour les paramètres que Hormis ces modifications, notre méthode d'utilisation de la
nous utilisons. Pour respecter ces caractéristiques, nous NG- RC pour prévoir la dynamique de ce système se déroule
exactement comme pour la NG- RC.

6 COMMUNICATIONS NATURE | (2021) 12:5564 | https://doi.org/10.1038/s41467-021-25801-2 |www.nature.com/naturecommunications


COMMUNICATIONS NATURE | https://doi.org/10.1038/s41467-021-25801-2 ARTICLE

Fig. 2 Prévision d'un système dynamique à l'aide du NG-RC. Attracteurs étranges de Lorenz63 réels (a) et prédits (e). b-d Ensemble de données
d'apprentissage avec comportement prédit superposé avec α = 2,5 × 10-6. L'erreur quadratique moyenne normalisée (NRMSE) sur un temps de
Lyapunov pendant la phase d'apprentissage est la suivante
1,06 ± 0,01 × 10-4, où l'incertitude est l'erreur standard de la moyenne. f-h Ensembles de données réels (bleu) et prédits pendant la phase de prévision.
(NRMSE = 2,40 ± 0,53 × 10-3).

Fig. 3 Prévision du système double-scroll à l'aide du NG-RC. Attracteurs étranges réels (a) et prédits (e) du système double-scroll. b-d Ensemble de
données d'entraînement avec comportement prédit superposé. f-h Ensembles de données réels (bleu) et prédits pendant la phase de prévision (NRMSE =
4,5 ± 1,0 × 10-3).

le système Lorenz63. Les résultats de cette tâche sont présentés supplémentaire 2.


sur la figure 3, où l'on voit que le NG-RC montre une capacité de
prédiction similaire sur le système à double défilement que sur le
système Lorenz63, où d'autres mesures quantitatives de la recon-
struction précise de l'attracteur sont données dans la note
supplémentaire 1 ainsi que les composantes de W outdans la note
COMMUNICATIONS NATURE | (2021) 12:5564 | https://doi.org/10.1038/s41467-021-25801-2 |www.nature.com/naturecommunications 7
ARTICLE COMMUNICATIONS NATURE | https://doi.org/10.1038/s41467-021-25801-2

Dans la dernière tâche, nous déduisons des dynamiques qui


n'ont pas été vues par le NG-RC pendant la phase de test. Ici,
nous utilisons k = 4 et s = 5 avec dt = 0,05 pour générer un
encastrement de l'attracteur complet afin de déduire l'autre
composante, conformément au théorème d'encastrement de
Takens29. Nous fournissons les variables x, y et z pendant
l'apprentissage et nous observons à nouveau qu'un ensemble de
données d'apprentissage court de seulement 400

8 COMMUNICATIONS NATURE | (2021) 12:5564 | https://doi.org/10.1038/s41467-021-25801-2 |www.nature.com/naturecommunications


COMMUNICATIONS NATURE | https://doi.org/10.1038/s41467-021-25801-2 ARTICLE
Le NG-RC s'appuie sur des travaux antérieurs d'identification
de systèmes non linéaires. Il est le plus étroitement lié à
l'autorégression non linéaire à entrées multiples et à sorties
multiples avec entrées exogènes (NARX) étudiée depuis les
années 198021. Une distinction cruciale est que Tikhonov

Fig. 4 Inférence utilisant un NG-RC. a-c Variables de Lorenz63 pendant


la phase de formation (bleu) et de prédiction (c, rouge). Les prédictions
recouvrent les données d'entraînement de (c), ce qui donne une trace
violette (NRMSE = 9,5 ± 0,1 × 10-3 avec α = 0,05). d-f Variables de
Lorenz63 pendant la phase de test, où les prédictions recouvrent les
données d'entraînement de (f), ce qui donne une trace violette
(NRMSE = 1,75 ± 0,3 × 10-2).

points est suffisant pour obtenir de bonnes performances, comme


le montre la figure 4c, où l'ensemble de données d'apprentissage
est superposé aux prédictions du NG-RC. Ici, le vecteur
caractéristique total comporte 45 composants et W outa donc une
dimension (1 × 45). Pendant la phase de test, nous fournissons
au NG-RC uniquement les composantes x et y (Fig. 4d, e) et
prédisons la composante z (Fig. 4f). Les performances sont
presque identiques pendant la phase de test. Les composantes de
W outpour cette tâche sont données dans la note complémentaire
2.

Discussion
Le NG-RC est plus rapide en termes de calcul qu'un RC
traditionnel parce que la taille du vecteur de caractéristiques est
beaucoup plus petite, ce qui signifie qu'il y a moins de
paramètres ajustables qui doivent être déterminés, comme
discuté dans les notes supplémentaires 3 et 4. Nous pensons que
la taille de l'ensemble de données d'entraînement est réduite
précisément parce qu'il y a moins de paramètres fit. De plus,
comme mentionné ci-dessus, le temps d'échauffement et
d'entraînement est plus court, ce qui réduit le temps de calcul.
Enfin, le NG- RC a moins de métaparamètres à optimiser,
évitant ainsi la procédure d'optimisation coûteuse en calcul dans
un espace de paramètres à haute dimension. Comme détaillé
dans la note supplémentaire 3, nous estimons la complexité de
calcul pour la tâche de prévision Lor- enz63 et findons que le
NG-RC est ~33-162 fois moins coûteux à simuler qu'un RC
traditionnel typique déjà efficient12, et plus de 106 fois moins
coûteux pour un RC tradi- tionnel de haute précision14 pour un
seul ensemble de métaparamètres. Pour le système à double
défilement, où le NG-RC a une non-linéarité cubique et donc
plus de caractéristiques, l'amélioration est un facteur plus
modeste de 8 à 41 par rapport à une RC12 traditionnelle
typiquement efficient pour un seul ensemble de métaparamètres.
COMMUNICATIONS NATURE | (2021) 12:5564 | https://doi.org/10.1038/s41467-021-25801-2 |www.nature.com/naturecommunications 9
ARTICLE COMMUNICATIONS NATURE | https://doi.org/10.1038/s41467-021-25801-2

l'apprentissage des systèmes dynamiques car il y a moins de


La régularisation n'est pas utilisée dans l'approche NARX et il
métaparamètres à optimiser et le NG-RC ne nécessite que des
n'existe pas de fondement théorique d'un NARX à une RC
ensembles de données extrêmement courts pour l'entraînement.
implicite. Notre NG- RC fusionne le meilleur des méthodes Parce que le NG-RC a un RC traditionnel implicite (caché) sous-
NARX avec des méthodes de régression modernes, ce qui est jacent, nos résultats se généralisent à tout système pour lequel un
nécessaire pour obtenir les bonnes performances démontrées RC standard a été appliqué précédemment. Par exemple, le NG-
ici. Nous mentionnons que Pyle et al. 30 ont récemment trouvé RC peut être utilisé pour créer un jumeau numérique pour les
de bonnes performances avec un NG-RC simplifié mais sans le systèmes dynamiques33 en utilisant uniquement des données
cadre théorique et la justification présentés ici. observées ou en combinant des modèles approximatifs avec des
Dans d'autres travaux connexes, il y a eu un renouveau de la observations pour l'assimilation de données34,35. Il peut
recherche sur les méthodes de linéarisation axées sur les également être utilisé pour le contrôle non linéaire des systèmes
données31 qui représentent le field vectoriel en le projetant sur dynamiques36, qui peut être rapidement ajusté pour tenir compte
un sous-espace linéaire fini couvert par des fonctions simples, des changements dans le système, ou pour accélérer la
généralement monomiales. Notamment, la réf. 25 utilise la simulation de la turbulence37.
méthode des moindres carrés alors que les travaux récents
utilisent LASSO26,27 ou les méthodes de la théorie de
l'information32 pour simplifier le modèle. Le but de ces
méthodes est de modéliser le field vectoriel à partir des
données, par opposition au NG-RC développé ici qui prévoit
sur des pas de temps finis et apprend ainsi le flow du système
dynamique. En fait, certaines des grandes composantes de
probabilité de W out(note supplémentaire 2) peuvent être
motivées par les termes du field vectoriel, mais beaucoup
d'autres sont importantes, ce qui démontre que le flow appris
par le NG-RC est dif- férent du field vectoriel.
Certains des composants de Wout sont assez petits, ce qui
suggère que
que plusieurs caractéristiques peuvent être supprimées à l'aide
de diverses méthodes sans nuire à l'erreur de test. Dans la
littérature NARX21, il est suggéré qu'un praticien commence
par le nombre le plus faible de termes dans le vecteur de
caractéristiques et ajoute des termes un par un, en ne gardant
que les termes qui réduisent considérablement l'erreur de test
sur la base d'un seuil arbitraire dans la réduction de l'erreur
observée. Cette procédure est fastidieuse et ignore les
corrélations possibles dans les composantes. D'autres approches
théoriquement justifiées comprennent l'utilisation des méthodes
LASSO ou de la théorie de l'information mentionnées ci-dessus.
L'autre approche pour réduire la taille de l'espace des
caractéristiques consiste à utiliser l'astuce du noyau qui est au
cœur de la ML via les machines à vecteurs de support20. Cette
approche ne donnera qu'une
avantage lorsque la dimension d'Ototal est beaucoup plus grande
que le nombre de points de données d'entraînement, ce qui n'est
pas le cas dans nos études ici mais peut être pertinent dans
d'autres situations. Nous allons
explorer ces approches dans des recherches futures.
Notre étude ne considère que des données générées par des
simulations numériques de modèles sans bruit. C'est
précisément l'utilisation de la régression reg- ularisée qui rend
cette approche tolérante au bruit : elle identifie un modèle qui
est le meilleur estimateur de la dynamique sous-jacente, même
avec du bruit ou de l'incertitude. Nous donnons des résultats
pour la prévision du système de Lorenz63 lorsqu'il est
fortement piloté par.
bruit dans la note complémentaire 5, où nous observons que le
NG-RC apprend le système équivalent sans bruit tant que α est
augmenté, ce qui démontre l'importance de la régularisation.
Nous ne considérons également que les systèmes dynamiques
de faible dimension, mais des travaux antérieurs prévoyant des
dynamiques spatio-temporelles complexes de haute
dimension4,7 à l'aide d'une RC traditionnelle suggèrent qu'une
NG-RC excellera dans cette tâche en raison de la RC
traditionnelle implicite, mais en utilisant des ensembles de
données plus petits et en nécessitant l'optimisation de moins de
méta paramètres. De plus, Pyle et al. 30 ont réussi à prévoir le
comportement d'un système spatio-temporel multi-échelle en
utilisant une approche similaire au NG-RC.
Notre travail a des implications importantes pour

1 COMMUNICATIONS NATURE | (2021) 12:5564 | https://doi.org/10.1038/s41467-021-25801-2 |www.nature.com/naturecommunications


0
COMMUNICATIONS NATURE | https://doi.org/10.1038/s41467-021-25801-2 ARTICLE
examples. Nat. Mach. Intell. 3, 316–323 (2021).
Méthodes
Les résultats numériques exacts présentés ici, tels que les états stables instables
(USS) et NRMSE, varieront légèrement en fonction du logiciel précis utilisé pour
les calculer. Nous avons calculé les résultats de cet article en utilisant Python
3.7.9, NumPy 1.20.2 et SciPy 1.6.2 sur un processeur x86-64 sous Windows 10.

Disponibilité des données


Les données générées dans cette étude peuvent être recréées en exécutant le code
disponible publiquement comme décrit dans la déclaration de disponibilité du code.

Disponibilité du code
Tout le code est disponible sous une licence MIT sur Github
(https://github.com/quantinfo/ng- rc-paper-code)38.

Reçu : 14 juin 2021 ; Accepté : 1er septembre 2021 ;

Références
1. Jaeger, H. & Haas, H. Harnessing nonlinearity : predicting chaotic systems
and saving energy in wireless communication. Science 304, 78-80 (2004).
2. Maass, W., Natschläger, T. & Markram, H. Real-time computing without
stable states : a new framework for neural computation based on
perturbations. Neural Comput. 14, 2531–2560 (2002).
3. Pathak, J., Lu, Z., Hunt, B. R., Girvan, M. & Ott, E. Utiliser l'apprentissage
automatique pour répliquer les attracteurs chaotiques et calculer les exposants
de Lyapunov à partir des données. Chaos 27, 121102 (2017).
4. Pathak, J., Hunt, B., Girvan, M., Lu, Z. & Ott, E. Model-free prediction of large
spatiotemporally chaotic systems from data : a reservoir computing approach.
Phys. Rev. Lett. 120, 24102 (2018).
5. Bengio, Y., Boulanger-Lewandowski, N. & Pascanu, R. Advances in optimizing
recurrent networks. 2013 IEEE International Conference on Acoustics, Speech
and Signal Processing, 2013, pp. 8624-8628 https://doi.org/10.1109/
ICASSP.2013.6639349 (2013).
6. Vogel, C. R. Computational Methods for Inverse Problems (Society
for Industrial and Applied Mathematics, 2002).
7. Vlachas, P. R. et al. Backpropagation algorithms and reservoir computing in
recurrent neural networks for the forecasting of complex spatiotemporal
dynamics. Neural Netw. 126, 191-217 (2020).
8. Bompas, S., Georgeot, B. & Guéry-Odelin, D. Précision des réseaux de neurones
pour la simulation de dynamiques chaotiques : précision des données
d'entraînement vs précision de l'algorithme. Chaos 30, 113118 (2020).
9. Yperman, J. & Becker, T. Optimisation bayésienne des hyperparamètres
en calcul de réservoir. Préprint à arXiv:1611.0519 (2016).
10. Livi, L., Bianchi, F. M. & Alippi, C. Détermination du bord de criticité dans
les réseaux d'état d'écho par la maximisation de l'information fisher. IEEE
Trans. Neural Netw. Learn. Syst. 29, 706–717 (2018).
11. Thiede, L. A. & Parlitz, U. Optimisation des hyperparamètres basée sur le
gradient dans les réseaux d'état d'écho. Neural Netw. 115, 23-29 (2019).
12. Griffith, A., Pomerance, A. & Gauthier, D. J. Forecasting chaotic systems
with very low connectivity reservoir computers. Chaos 29, 123108 (2019).
13. Antonik, P., Marsal, N., Brunner, D. & Rontani, D. Bayesian optimisation of
large-scale photonic reservoir computers. Cogn. Comput. 2021, 1–9 (2021).
14. Lu, Z., Hunt, B. R. & Ott, E. Attractor reconstruction by machine learning.
Chaos 28, 061104 (2018).
15. Platt, J. A., Wong, A. S., Clark, R., Penny, S. G. & Abarbanel, H. D. I.
Robust forecasting through generalized synchronization in reservoir
computing. Préprint à arXiv:2103.0036 (2021).
16. Gonon, L. & Ortega, J. P. Reservoir computing universality with stochastic
inputs. IEEE Trans. Neural Netw. Learn. Syst. 31, 100–112 (2020).
17. Hart, A. G., Hook, J. L. & Dawes, J. H. P. Echo state networks trained by
Tikhonov least squares are L2(μ) approximators of ergodic dynamical systems.
Phys. D. Nonlinear Phenom. 421, 132882 (2021).
18. Bollt, E. On explaining the surprising success of reservoir computing
forecaster of chaos ? Le système dynamique universel d'apprentissage de la
machine en contraste avec le VAR et le DMD. Chaos 31, 013108 (2021).
19. Gauthier, D. J. Reservoir computing : harnessing a universal dynamical
system.
SIAM News 51, 12 (2018).
20. Franz, M. O. & Schölkopf, B. A unifying view of Wiener and Volterra
theoryand polynomial kernel regression. Neural. Comput. 18, 3097–3118
(2006).
21. Billings, S. A. Identification de systèmes non linéaires (John Wiley & Sons, Ltd.,
2013).
22. Kim, J. Z., Lu, Z., Nozari, E., Papas, G. J. & Bassett, D. S. Teaching
recurrent neural networks to infer global temporal structure from local

COMMUNICATIONS NATURE | (2021) 12:5564 | https://doi.org/10.1038/s41467-021-25801-2 |www.nature.com/naturecommunications 1


1
ARTICLE COMMUNICATIONS NATURE | https://doi.org/10.1038/s41467-021-25801-2

Les réimpressions et les informations relatives aux autorisations sont disponibles à


23. Lorenz, E. N. Deterministic nonperiodic flow. J. Atmos. Sci. 20, 130- l'adresse http://www.nature.com/reprints.
141 (1963).
24. Chang, A., Bienfang, J. C., Hall, G. M., Gardner, J. R. & Gauthier, D. J. Note de l'éditeur Springer Nature reste neutre en ce qui concerne les revendications
Stabilizing unstable steady states using extended time-delay juridictionnelles dans les cartes publiées et les affiliations institutionnelles.
autosynchronization. Chaos 8, 782-790 (1998).
25. Crutchfield, J. P. & McNamara, B. S. Équations du mouvement à partir d'une
série de données.
Complex Sys. 1, 417–452 (1987).
26. Wang, W.-X., Lai, Y.-C., Grebogi, C. & Ye, J. Reconstruction de réseau basée
sur des données de jeu évolutif via la détection compressive. Phys. Rev. X 1,
021021 (2011).
27. Brunton, S. L., Proctor, J. L., Kutz, J. N. & Bialek, W. Discovering
governing equations from data by sparse identification of nonlinear
dynamical systems. Proc. Natl Acad. Sci. USA 113, 3932-3937 (2016).
28. Lai, Y.-C. Trouver des équations de système non linéaires et des
structures de réseau complexes à partir de données : une approche
d'optimisation éparse. Chaos 31, 082101 (2021).
29. Takens, F. Detecting strange attractors in turbulence. In Dynamical
Systems and Turbulence, Warwick 1980 (eds Rand, D. & Young, L. S.)
366-381 (Springer, 1981).
30. Pyle, R., Jovanovic, N., Subramanian, D., Palem, K. V. & Patel, A. B.
Domain- driven models yield better predictions at lower cost than reservoir
computers in Lorenz systems. Philos. Trans. R. Soc. A Math. Phys. Eng. Sci.
379, 24102 (2021).
31. Carleman, T. Application de la théorie des équations intégrales linéaires
aux d'équations différentielles non linéaires. Acta Math. 59, 63–87 (1932).
32. Almomani, A. A. R., Sun, J. & Bollt, E. How entropic regression beats the
outliers problem in nonlinear system identification. Chaos 30, 013107
(2020).
33. Grieves, M. W. Virtually Intelligent Product Systems : Jumeaux numériques
et physiques. Dans Complex Systems Engineering : Theory and Practice (eds
Flumerfelt, S., et al.) 175-200 (American Institute of Aeronautics and
Astronautics, Inc., 2019).
34. Wikner, A. et al. Combiner l'apprentissage automatique avec la
modélisation basée sur la connaissance pour la prévision évolutive et la
fermeture à l'échelle sous-grille de grands systèmes spatiotemporels
complexes. Chaos 30, 053111 (2020).
35. Wikner, A. et al. Using data assimilation to train a hybrid forecast system
that combines machine-learning and knowledge-based components. Chaos
31, 053114 (2021).
36. Canaday, D., Pomerance, A. & Gauthier, D. J. Model-free control of dynamical
systems with deep reservoir computing. à paraître dans J. Phys. Complex.
http:// iopscience.iop.org/article/10.1088/2632-072X/ac24f3 (2021).
37. Li, Z. et al. Opérateur neuronal de Fourier pour les équations
différentielles partielles paramétriques. Préprint à arXiv:2010.08895
(2020). Dans la conférence internationale sur les représentations
d'apprentissage (ICLR 2021).
38. Gauthier, D. J., Griffith, A. & de sa Barbosa, W. ng-rc-paper-code
repository. https://doi.org/10.5281/zenodo.5218954 (2021).

Remerciements
Nous remercions Henry Abarbanel, Ingo Fischer et Kathy Lüdge pour leurs
discussions. D.J.G. est soutenu par l'United States Air Force AFRL/SBRK dans le
cadre du contrat n° FA864921P0087. E.B. est soutenu par l'ARO (N68164-EG) et le
DARPA.

Contributions des auteurs


D.J.G. a optimisé le NG-RC, réalisé les simulations du texte principal et rédigé le
manuscrit. E.B. a conceptualisé le lien entre un RC et un NVAR, a aidé à interpréter
les données et a rédigé le manuscrit. A.G. et W.A.S.B. ont participé à l'interprétation
des données et à la rédaction du manuscrit.

Intérêts concurrents
D.J.G. a des intérêts financiers en tant que cofondateur de ResCon Technologies,
LCC, qui commercialise les CR. Les autres auteurs ne déclarent aucun intérêt
concurrent.

Informations complémentaires
Informations complémentaires La version en ligne contient des informations
complémentaires disponibles sur le site https://doi.org/10.1038/s41467-021-25801-2.

La correspondance et les demandes de matériel doivent être adressées à Daniel J.


Gauthier.

Informations sur l'évaluation par les pairs Nature Communications remercie Serhiy
Yanchuk et les autres évaluateurs anonymes pour leur contribution à l'évaluation par
les pairs de ce travail. Les rapports d'évaluation par les pairs sont disponibles.

1 COMMUNICATIONS NATURE | (2021) 12:5564 | https://doi.org/10.1038/s41467-021-25801-2 |www.nature.com/naturecommunications


2
COMMUNICATIONS NATURE | https://doi.org/10.1038/s41467-021-25801-2 ARTICLE

Accès libre Cet article est placé sous licence Creative Commons
Attribution 4.0 International License, qui permet l'utilisation, le partage,
l'adaptation, la distribution et la reproduction sur n'importe quel support ou dans
n'importe quel format, à condition de créditer de manière appropriée le ou les auteurs
originaux et la source, de fournir un lien vers la licence Creative Commons et d'indiquer
si des modifications ont été apportées. Les images ou tout autre matériel tiers figurant
dans cet article sont inclus dans la licence Creative Commons de l'article, sauf
indication contraire dans une ligne de crédit vers le matériel. Si le matériel n'est pas
inclus dans la licence Creative Commons de l'article et que l'usage que vous souhaitez
en faire n'est pas autorisé par la réglementation ou dépasse l'usage autorisé, vous devrez
obtenir l'autorisation directement auprès du détenteur du droit d'auteur. Pour consulter
une copie de cette licence, rendez-vous sur http://creativecommons.org/ licenses/by/4.0/.

© The Author(s) 2021

COMMUNICATIONS NATURE | (2021) 12:5564 | https://doi.org/10.1038/s41467-021-25801-2 |www.nature.com/naturecommunications 1


3

Vous aimerez peut-être aussi