Vous êtes sur la page 1sur 13

Intellectica, 2004/2, 39, pp.

125-137

La notion de rcursivit, de la premire cyberntique


au connexionnisme
Pierre LIVET
RSUM. La premire cyberntique (McCulloch), puis la seconde (Ashby et von
Foerster) ont mis la rcursivit au centre de leurs projets. Mais les deux ont sous
estim la puissance des fonctions rcursives (trouver le code du programme qui
calcule une fonction dpendant de ce code), tout comme les problmes de ce qui nest
pas rcursivement numrable. Les thories lies au premier renouveau du
connexionnisme ont prtendu elles aussi se situer la fois en de et au-del de la
rcursivit.
Mots clefs : rcursivit, cyberntique, code, programme, connexionnisme.
ABSTRACT. The concept of recursivity, from the first cybernetics to connectionism. In the first cybernetics (McCulloch) and the second one (Ashby and von
Foerster) as well recursivity was supposed to be a central concepts. But in both
theories, the power of recursive functions (to find the code of the program which
computes a function that depends on this very same code) as well as the troubles
raised by non recursively enumerable functions have been overlooked. A similar
position can be found in some theories related to the connectionism of the eighties,
that have also been pretended to take place beyond the real power of recursivity.
Key words: recursivity, cybernetics, code, program, connectionism.

Le mot de rcursif revient trs souvent sous la plume aussi bien de von
Foerster que de Maturana et Varela. Et quand on tudie lanalyse des comportements tlologiques dans larticle de Bigelow, Rosenblueth et Wiener, de
1943, on saperoit que certaines de leurs distinctions correspondent des
catgories quultrieurement von Foerster a empruntes explicitement la
thorie de la rcursion. Enfin quand on tudie les tentatives des connexionnistes pour traiter des squences de symboles tout en prservant leurs proprits
structurelles, dune part on retrouve la notion de rcurrence, et dautre part on
peut encore reprer un cho lointain des distinctions propres la thorie des
fonctions rcursives. Il ma donc sembl que ces distinctions pouvaient permettre des comparaisons utiles entre des travaux dpoques diverses, mais
dinspiration commune. Nous verrons que les cybernticiens de la premire
priode (Wiener, McCulloch, Shannon) faisaient de la rcursion sans trop le
savoir ; que ceux de la seconde (Ashby, von Foerster, puis Maturana et Varela)
en faisaient en le sachant, mais en tant insensibles la dualit daspects propre la rcursion, dualit entre son aspect de certitude et son aspect de
limitation ; et enfin que les connexionnistes nous ntudierons que les 20
premires annes du connexionnisme se situent la fois en de et en dehors

Universit dAix-Marseille 1. Dpartement de Philosophie, 29 avenue Robert Schuman, 13621 Aix


en Provence Cedex 1. E-mail : livet@newsup.univ-mrs.fr.

2004 Association pour la Recherche Cognitive.

126

Pierre LIVET

des fonctions rcursives (les fonctions dfinies par composition dautres fonctions simples) tout en en proposant des approximation
Rappel de la thorie de la rcursion
Il nous faut dabord disposer de quelques repres donns par la thorie des
fonctions rcursives. On peut soutenir quelle est lie trois perspectives :
1) dterminer ce qui est calculable ; 2) engendrer des fonctions complexes
partir de fonctions simples ; 3) prsupposer linconnu pour produire du connu.
La notion de rcurrence chre Poincar, qui en faisait le moteur des mathmatiques, nous donne un lien entre la seconde perspective et la troisime. Cette
dernire perspective flirte avec le paradoxe. Elle lvite, en sappuyant sur les
fondations proposes par les tagements de la deuxime perspective, mais elle
permet dintroduire, avec la possibilit de points fixes, des procds de diagonalisation qui, si on les gnralise, nous font justement sortir du domaine du
rcursif patiemment construit selon la deuxime voie, et nous montrent ainsi
les limites de ce qui est calculable de faon dcidable.
Je nai pas besoin dexpliciter la premire perspective. Elle renvoie la
thse de Church ; toute fonction algorithmique est une fonction rcursive .
Elle nous donne par contraposition un moyen de suspecter une opration de
ntre pas algorithmique : il nous suffit de dmontrer que la fonction qui lui
correspond nest pas rcursive. Inversement, si nous avons trouv un algorithme qui calcule la fonction, nous savons quelle est rcursive. Comme la
notion dalgorithme est simplement dcrite, mais non dfinie, le passage par la
notion de fonction rcursive est notre meilleur critre si nous voulons rpondre
la question concernant la ngative.
La seconde ne pose pas davantage de problmes. La notion de fonction
rcursive recouvre des fonctions qui peuvent tre dfinies partir de fonctions
prcdemment construites. On fournit tous les pas dopration ncessaires la
production des valeurs de la fonction. On peut ensuite la dfinir en composant
dautres fonctions, et enfin on peut faire appel la rcursion elle-mme. On
partira dune valeur dfinie par stipulation pour 0, f(x,0) = une valeur donne
(qui pour laddition, par exemple, est 0, et pour lexponentiation est x). Puis
on dfinira par rcurrence f(x,n+1) comme une fonction de f(x,n). Ainsi pour
laddition, f(x,n+1) = f(x,n)+1 ; La dfinition de la fonction fait donc appel
dans le definiens la fonction dfinir (la fonction f se retrouve aussi bien
dans le definiens que dans le definiandum). Nous voyons donc dj apparatre
la troisime perspective : produire du connu partir de linconnu. Car prsupposer la fonction inconnue pour la dfinir provoque une circularit qui pourrait
tre gnante. Mais comme on sait comment amorcer lentre dans ce cercle, et
comment procder tapes par tapes, la rcurrence, loin de nous bloquer dans
un cercle, nous assure que nous pourrons toujours progresser de la mme
manire. Pour tre plus exact, la dfinition de laddition ne fait pas appel au
+ , mais seulement la fonction successeur, qui est donne comme fonction
de dpart. On se donne aussi les fonctions 0, didentit, de composition, et la
dmarche rcursive que lon vient dexemplifier. Une fonction qui peut tre
dfinie en utilisant ces procds est une fonction rcursive primitive. Si on veut
pouvoir traiter le cas de rcursions qui se font en parallle sur deux variables
(x+1 et y+1, par exemple) on passera la notion de fonction rcursive gnrale. On peut raisonner aussi sur des fonctionnelles (des fonctions de
fonctions). Si on remplace une fonction f unaire totale par une squence infinie

La notion de rcursivit, de la premire cyberntique au connexionnisme

127

de nombres x, alors les tapes F(x;x, 0) = G(x;x) et F(x;x,y+1) = H (x;x,y,


F(x;x,y)) nous donneront la fonctionnelle F par rcursion.
La troisime dmarche permet des dveloppements encore plus audacieux.
Elle sexprime dans le thorme de la rcursion, et dans les extensions de
lopration de diagonalisation. Je vais sommairement en rsumer quelques
points saillants, car cela va me servir de grille danalyse pour la suite. Disons
tout de suite que ces thormes montrent la fois le pouvoir impressionnant de
la rcursion, et montrent aussi que ce pouvoir qui nous permet de dfinir ce que
nous pouvons matriser comme calculable est en un sens juste trop grand ,
puisquil nous permet dindiquer aussi les limites de ce qui est calculable.
On peut associer tout programme un code. Ce code peut dailleurs tre
simplement la suite des instructions qui constituent le programme, une fois
agences en une squence qui a elle-mme un code, et qui est elle-mme une
squence de nombres. On sait par exemple que la machine de Turing universelle est construite dans lidal pour lire une squence dinstructions qui
comporte les donnes traiter par un programme et le code de ce programme.
Une fois trouv le code, elle applique le programme qui lui correspond la
suite de donnes et effectue les oprations quil contient. On peut videmment
se poser la question de savoir si un programme donn fournit bien les mmes
rsultats de calcul, les mmes valeurs de sortie, quune fonction donne.
Maintenant supposons que la fonction en question soit une fonction de plusieurs variables, dont le numro de code du dit programme. Il semble y avoir l
une difficult. Si on ne dispose pas encore du programme, comment pourraiton identifier ce que font des oprations dont le contenu nest dtermin quune
fois quon dispose des donnes, savoir le code du programme. En particulier,
comment pourrait-on trouver le code qui identifie le programme ? Mais cest
justement lintrt davoir mis part les programmes et les donnes. Cela
permet la fois de ne pas les confondre, et de prendre si on le souhaite le code
du programme pour donne, donc de raliser une sorte dauto-rfrence.
On peut alors se proposer de trouver le code du programme qui calcule une
fonction qui dpend elle-mme, entre autres donnes, du code de ce programme. Si on crit {e} le programme de code e, et {e}x lapplication la
donne x du programme de code e, on cherche donc le programme tel que
{e}x = f(x,e). Ltape suivante est de considrer que e peut varier, et quon
aura alors diffrents programmes selon les variations de la variable du code.
Les diffrents codes sont maintenant donns par une fonction f(z). On se
demande alors si les programmes cods par f(z), les {f(z)}, donnent bien
chaque fois les mmes rsultats que la fonction f(x,f(z),z), qui en fonction du
code z, calcule le code du programme quelle applique la valeur x. La dpendance des valeurs de sortie calcules par rapport aux x varie donc avec les z
selon la fonction f(z). On peut exprimer cela en termes de fonctionnelles, en
remplaant comme plus haut les fonctions par des squences associes aux
variables. Dans les deux cas, le thorme de la rcursion (Kleene, 1938) nous
dit que si la fonction (resp. fonctionnelle) prescrite est rcursive, alors on peut
trouver une telle squence f. Autrement dit, ds que le programme correspond
une fonction rcursive, nous savons que le problme consistant trouver le
code du programme qui calcule une fonction dpendant entre autre de son
propre code a une solution (pour savoir laquelle, il faut que la fonction rcursive soit dcrite).

128

Pierre LIVET

Ce thorme est la face positive de la troisime perspective. Mme si nous


compliquons les choses, et que nous voulons trouver par exemple le cot du
programme, incluant le paiement de celui qui est en train de chercher le programme et de le construire, cot qui dpend du temps mis construire le
programme, cot qui sera calcul en fonction de ce temps par le programme en
question (qui reste pour linstant une inconnue, comme son temps de construction et sa procdure de calcul), il nous suffirait de savoir que ce programme
correspond une fonction rcursive (construite selon les procds de la
deuxime dmarche) pour que nous sachions que nous pouvons trouver une
solution au problme. Nous pouvons donc prsupposer une inconnue pour
trouver du connu si le lien entre les deux nous est donn par une fonction
rcursive.
La puissance de la rcursion nous mne encore plus loin. Le thorme de
Matijasevic, Robinson, Davis et Putnam (dmontr en deux temps, dabord par
les trois derniers, puis, pour la dernire tape, par le premier, 1961-1970)
tablit une proprit positive (lquivalence entre la notion de relation rcursivement numrable et celle de relation diophantine), mais il mne directement
la dmonstration de limpossibilit de dcider tous les coups si une quation diophantine a une solution ou non. Il donne donc une rponse ngative
une des problmes du programme de Hilbert (une quation diophantine est une
quation du type f(X) = 0, o X est un ensemble de variables et f est une fonction polynomiale coefficients entiers rationnels et dont on cherche la solution
en nombres entiers rationnels).
On part, en un sens, de la possibilit que nous donne le thorme de la
rcursion de connatre un programme par son code. On suppose ainsi quune
relation P nous est donne par le moyen dun index e. Les variables relies par
P (les variables de lensemble X) appartiennent donc au domaine dont part le
programme de code e, savoir {e}. Le thorme de nos quatre auteurs donne
alors une mthode pour trouver partir de ce programme la fonction polynomiale f, fonction de m variables, pour laquelle la relation R(X) = P(X,y1,,ym)
= 0. Sachant le code du programme, nous pouvons donc trouver des solutions,
sil y en a. Mais cette mme puissance, utilise de manire auto-rfrente, va
nous amener dmontrer limpossibilit du problme de la dcision concernant
une quation diophantine quelconque. Et ce parce quon va trouver une proprit (une relation unaire) pourtant relie une fonction polynomiale, mais
qui va se rvler identique une proprit rcursivement numrable mais non
rcursive (ce qui veut dire que lon peut numrer par une procdure effective
les termes tombant dans lextension de la proprit, mais quimaginer une
procdure effective pour dcider de ceux qui ne sont pas porteurs de cette
proprit nous mnerait une contradiction).
On suppose dabord une proprit P(z) qui vaut pour z si et seulement si z
est le nombre de code du programme ralisant une fonction f, polynomiale,
dont le calcul des valeurs a une solution. Si on avait ce programme, on saurait
que le calcul de la solution de lquation f=0 de cette fonction est dcidable.
On envisage ensuite une proprit R qui, elle, est non rcursive, et on va
montrer que pour un argument (f(z)), R(z) = P(f(z)), si bien quen fait notre
proprit P est non rcursive. videmment, on va choisir pour R une proprit
dauto-rfrence ou de diagonalisation . On sait par exemple que la fonction
ou relation unaire R(z) telle que sa valeur soit gale un z qui appartient au
domaine du programme de code z, {z}, est bien rcursivement numrable

La notion de rcursivit, de la premire cyberntique au connexionnisme

129

elle correspond une fonction f(z,z,y) mais que sa ngation ne lest pas, si
bien que la proprit R nest pas rcursive. Sa ngation exige en effet que la
valeur de la fonction f(z) nappartienne pas au domaine du programme {z}. Or
dans ce cas, z, la valeur de la fonction, appartient cependant au domaine dun
programme, disons de code {e}. Mais il suffit de faire {e} = {z}, donc
dappliquer une diagonalisation, pour voir que la rcursivit de la ngation de
R conduit une contradiction, la valeur appartenant et nappartenant pas au
domaine en question.
Cependant, le thorme des quatre nous permet de trouver, connaissant
lindex (z), la fonction polynomiale pour laquelle f(X,z)=0, et dans chaque
cas, f(X,z)=R(X). Pour chaque valeur de (z) nous allons trouver une telle
fonction polynomiale fz telle que fz (X)=f(X,z). Supposons que f (z) soit la
fonction rductible une squence de nombres qui nous donne justement par
cette squence le code du programme ralisant la fonction fz. La fonction f (z)
est une fonction rcursive. Mais alors, f (z)=fz, et fz (X)=f(X,z). Or que fait
R(z) ? Elle nous dit comment fz varie avec chaque nouvelle valeur de (z).
Mais f(z) nous assure que z est le code du programme qui ralise pour une
valeur de (z) la fonction fz, laquelle permet de trouver une solution, en remontant lquation f(X,z)=0, pour notre fonction. Or cet ensemble de proprits
que nous venons dnoncer est justement celui qui satisfait, pour un z donn, la
proprit P initiale. Si donc nous prenons pour argument de P la fonction f(z)
elle-mme, en tant que squence de nombres, nous lui donnons pour argument
la fonction qui nous dit comment fz varie avec chaque nouvelle valeur de z, et
nous retrouvons ainsi R(z), si bien que R(z)=P(f(z)). Mais on a montr que
R(z) nest pas rcursive, donc P(z) ne peut pas ltre non plus1. Nous
narriverons pas pour tous les z dcider si asserter la proprit P est valide.
Autrement dit les oprations quon peut dire au sens large dauto-rfrence
ne sont pas nocives tant quelles portent simplement sur des identits entre
index du code et variable traite. Mais elles peuvent nous faire sortir des limites du calculable ds que nous les tendons pour parler de lexistence de
solutions, ou de dfinition ou non dfinition des valeurs de la fonction, bref,
ds que nous les utilisons pour traduire des proprits mta-linguistiques, ds
que lauto-rfrence devient une sorte de reprsentation des proprits opratives du langage.
La leon de ces thormes semble tre la suivante : la puissance de la rcursion est immense, puisquelle permet dexprimer certains types dautorfrence, et donc de formaliser des questions que le mathmaticien se pose sur
ses propres dmarches. Mais nous voulions une puissance qui corresponde trs
exactement ce que nous pouvons matriser. Notre matrise a cependant des
limites. Or cette puissance nous permet de les atteindre. On peut aussi proposer une version optimiste : la puissance de ce que nous pouvons matriser va
jusqu dmontrer, de faon matrise, que nous ne pouvons pas matriser
certaines proprits (cest la version de Judson Webb). Nous pouvons donc
matriser le fait de ne pas matriser certaines oprations. videmment, cela
nous permet seulement de savoir que ces oprations sont au del des limites,
pas de matriser ces oprations.

Pour tout ceci, cf. Bell et Machover, 1975, A course in mathematical logic, North Holland, p. 259,
269, 273-5, 282, 313., et Delong H., 1970, A profile of mathematical logic, Addison-Wesley Reading,
Massachusetts.

130

Pierre LIVET

Tout cela nest que rappel de choses ressasses, et il nous faut maintenant
montrer quels clairages ces distinctions peuvent jeter sur les dbats de la
cyberntique et de sa descendance.
En de de la rcursion.
La rcursion amenant raisonner sur des fonctions dont une variable au
moins est la valeur fournie par une application prcdente de la fonction, on
pense immdiatement relier la notion de rcursion et celles de rtroaction ou
de feed-back.
Or si nous revenons larticle princeps de la cyberntique, celui de
Bigelow, Rosenblueth et Wiener sur les comportements purposive (1943),
nous noterons quils faisaient une diffrence entre le comportement purposeful et celui rgul par feed-back, puis entre celui qui est rgul par feedback et enfin celui qui est rgul par anticipation. Le premier est reprsent
par les servo-mcanismes qui se bornent rorienter la trajectoire dun missile
quand arriv un certain point sa cible nest pas dans la zone reconnue. Il en
est de mme pour des robots qui se dplacent et repartent dans une autre direction quand ils ont heurt un mur. En revanche le feed-back consiste en une
rgulation en continu pendant toute lexcution du dplacement. Autrement dit,
la valeur de la sortie prcdente de la fonction, dans le comportement purposeful, nest prise en compte que de manire discrte, certaines tapes, alors
quelle est influente de manire continue, ou en tous les points du temps, dans
le feed-back. Et enfin quand on anticipe, cest quon peut changer de fonction
par rapport celle dans laquelle on est prsentement engag. On retrouve donc
ici des tapes de la construction rcursive. On va voir que von Foerster
reprendra cette ide dune fonction qui consisterait changer de fonction.
liminons cependant une difficult qui pourrait surgir. Les diffrents
auteurs que nous analyserons utilisent la fois la notion de feed-back et celle
de rcursivit, sans sappesantir sur le fait que prendre vraiment au srieux la
boucle dun feed-back interdit justement toute rcursivit. On ne peut pas
considrer comme une fonction rcursive une fonction qui serait fonction la
fois de son entre x et de sa sortie y au mme instant, si bien que x dpend de y
qui dpend de x. Pour la retrouver, il faut videmment dcaler dans le temps
les entres et les sorties, et admettre un t0 o x est donn sans que y ait encore
une influence, quil naura quau temps t+1 sur lentre x en t+1 ( supposer
que le feed-back se fasse sans dlai).
Passons maintenant larticle dAshby sur Les principes du systme autoorganis (1962)2 Il sagit en quelque sorte dun essai pour miner lavance
toute thorie de lauto-organisation qui prtende faire merger du nouveau
par des processus de rtroaction et de rentre. Il part dune machine, conue
comme une fonction. Il soutient que faire de f une fonction de ltat interne de
la machine est un non sens (p. 268). En effet, si je tente de dmultiplier la
fonction en une fonction fa quand ltat interne est a, fb quand il est b, etc.,
quand jaurais a en entre, je ne vais appliquer que fa, si b est lentre, je ne
vais appliquer que fb, etc., si bien que tout cela se rduit avoir dcoup f en
tranches, puisque f est une relation qui relie ltat a une sortie, ltat b une
autre, etc. Lauto-organisation se ramne donc changer de fonction en fonc2

Von Foerster a t lditeur du volume qui comprend ce texte, et il est suprenant de voir quil a utilis
des notions similaires non plus dans un but de rduction de lauto-organisation, mais dans un but, si lon
peut dire, de magnification.

La notion de rcursivit, de la premire cyberntique au connexionnisme

131

tion de lenvironnement. Si lensemble, si la nouvelle machine forme par


lenvironnement et la premire machine a un riche potentiel (si sa fonction a
des comportements diversifis) alors nous pourrons avoir la possibilit de
varier nos conduites en fonction des changements de lenvironnement, cest-dire, selon Ashby, la possibilit dtre intelligents, et il sera mme invitable
que nous le soyons !
Ashby na pas tort sur le premier point, sil refuse de faire de ltat interne s
quune fonction de s et de x prend pour variable une source de modification de
la fonction elle-mme, qui rgit justement ces variations. Mais il a tort sil
pense exclure par l la possibilit quune fonction dpende dune variable qui
est le numro de code du programme que ralise la fonction. Il a sous-estim la
puissance du thorme de la rcursion, qui nous dit prcisment que nous
pouvons trouver le code du programme calculant une fonction qui dpend entre
autres variables de son propre code. De mme, Ashby tient, semble-t-il,
traduire la relation entre environnement et machine comme une composition de
fonctions, et non pas comme une fonctionnelle, ce que fera ensuite von
Foerster. Bref on trouve chez Ashby la fois une proximit avec la thorie de
la rcursion et une sous-estimation de sa complexit, traits que lon va retrouver un moindre degr chez von Foerster.
Le parallle avec la rcursion
Dans What is memory (1969), von Foerster utilise trs systmatiquement
la notion de fonction rcursive. La valeur y de la fonction f au temps t, nous
dit-il, dpend de la fonction f applique lentre xt, et de la valeur y en t-1,
qui elle-mme dpend de f applique xt-1, de yt-2, etc. jusqu ce quon arrive
en y0. Von Foerster ne fait l quappliquer lenvers la dmarche de dfinition
des valeurs dune fonction rcursive, celle qui construit les valeurs de f en
partant de x=0. Il ajoute seulement une indiciation par le temps. La rcursivit
permet dutiliser la rcurrence pour emboter la fonction dans elle-mme.
Linterprtation quen donne von Foerster est plus audacieuse. Puisque la
valeur y de f au temps t dpend non seulement de son entre x au temps t, mais
des prcdentes valeurs de f au temps t-1, etc., cest que cette valeur dpend de
toute lhistoire de f. Une simple fonction joue ainsi le rle de mmoire , ce
que prtend von Foerster, mais de mmoire sans stockage de linformation,
puisque tout se trouve chaque instant dans lopration f. Quant la rfrence
au pass, proprit ncessaire dune mmoire qui se respecte, elle est donne
simplement, selon von Foerster, par lembotement de la fonction en ellemme. Il serait plus correct de simplement parler dun comportement
dpendant du pass (par exemple une chane de Markov n chanons), plutt
que dune mmoire.
Von Foerster passe ensuite un autre niveau, et il dveloppe son point de
vue dans Molecular Ethology (1970). Il oppose ce quil appelle les machines
triviales et les machines non triviales. Une machine triviale est une fonction.
Une machine non triviale est tout simplement une machine qui change de mode
dopration en fonction dune variable. Cest donc une fonctionnelle qui
change de fonction, en fonction dune variable (p. 235). Ashby utilisait une
notion similaire, on la dit, mais au lieu de vouloir lutiliser pour passer du
trivial au non trivial, il y voyait au contraire un moyen de rduire la richesse de
lauto-organisation une fonction de la richesse de lenvironnement. Son
raisonnement avait cependant une faille, puisquil sous-estimait la puissance de
la rcursion. Cette puissance, cest celle que veut utiliser von Foerster. On

132

Pierre LIVET

retrouve ainsi notre fonctionnelle qui permettait de dfinir une liste infinie de
programmes, et den changer en fonction de la variable qui calculait le numro
de code du programme. Ou encore, on retrouve le rapport entre R(z) et fz. Le
numro de code du programme est choisi en fonction de lenvironnement.
Selon von Foerster, la machine non triviale peut ainsi faire de lenvironnement
une machine triviale (une fonction de base), puisque pour tout changement
pertinent de lenvironnement elle dclenche le programme qui y correspond.
En fait, cela revient tout aussi bien faire de lenvironnement le facteur
exogne qui permet la machine non triviale de changer de fonction. Tout au
plus peut-on dire, si on voit l une application du thorme de la rcursion, que
lenvironnement est une des valeurs dentre de la fonction qui nous donne le
numro de code du programme choisir.
Sur ce point, von Foerster est curieusement moins optimiste que Kleene. Il
nous dit en effet, dans What is memory, que partir du comportement pour
retrouver la fonction est en gnral difficile (sauf si le comportement se rpte
pour des squences rptes dentres) et que retrouver les changements de
synapses qui implmentent les changements de fonctions (retrouver le f (z)) est
impossible, ce qui revient orienter son pistmologie vers la production
dartefacts au lieu de lui permettre dexpliquer le vivant. Certes, il a raison sil
entend par l soit trouver les oprations effectives qui ralisent la fonction (car
il y en a une infinit de possibles) soit trouver ce programme si la fonction
nest pas rcursive. Mais le thorme nous dit que si elle lest, et von Foerster a
commenc par le supposer, alors nous pouvons par elle trouver le numro de
code du programme. Reste bien sr le faire, et savoir comment sy prendre
le plus simple serait que ce code nous donne le programme lui-mme mais
ce nest pas impossible.
Par ailleurs von Foerster propose une diffrence entre lexprience dans le
pass, quil pense donne par lembotement des tapes de la fonction, et
lexprience prsente de cette exprience, qui serait donne par la fonctionnelle
qui pose cette fonction comme la fonction en cours. Il semble quil vise par l,
sans lexpliciter, une notion de reprsentation, et de reprsentation de la reprsentation. Et prcisment, on retrouve cette ide dune reprsentation qui na
pour contenu que sa rfrence la relation de reprsentation mme, quand dans
On constructing a reality (1973), von Foerster utilise la notion de rcursion
pour aller encore plus loin. Supposons que la cognition consiste en la computation dune ralit. On ne peut faire de computation que sur une description
de la ralit (disons, un codage). Mais une description est le rsultat dune
computation. Si bien que finalement, on aurait une boucle, la cognition se
rduisant une computation de la computation. On sait quel sort a donn Edgar
Morin ce cercle auto-absorbant dans lequel il voit sa conception de la rcursivit, mais que ses lecteurs ont quelque mal identifier clairement (La
Nature de la Mthode, Seuil, 1977).
Jusque l, von Foerster stait born donner des interprtations gnreuses
de la notion de fonction rcursive, puis de celle de fonctionnelle rcursive. Ici,
il sengage sans le dire dans le domaine dangereux des extensions mtalangagires de la diagonalisation. Comme on la vu, celle-ci consiste, par
exemple, appliquer une fonction sur une valeur qui code la fonction ellemme, ou son numro dordre dans une liste. Tant quon dispose dun langage
formel, on peut toujours relier cette ide de codage linterprtation quon
donne de cette opration dans des termes non formels, du genre : la fonction
qui opre sur elle-mme . Mais ce pronom rflchi devient bien plus dange-

La notion de rcursivit, de la premire cyberntique au connexionnisme

133

reux manier quand on parle de reprsentation de la reprsentation, ou de


pense de la pense (ce que na pourtant pas hsit faire Dedekind). Cependant, parlant de computation de la computation, von Foerster pourrait
sappuyer sur lide du thorme de la rcursion. Si calculer, cest effectuer
une fonction f(x), si une description est simplement le rsultat de f(x) (voire
une fonction, si on est pass au niveau des fonctionnelles), alors il y a bien une
fonction f(x) qui dpend du numro de code du programme, ou un programme
qui dpend du calcul de la fonction portant sur son propre numro de code. On
a bien un bouclage. Mais tout dabord il faut noter que ce bouclage nest pas
total, puisqu ct de la variable z, il y a au moins une variable x (voire un
ensemble X de variables), si bien quon ne peut liminer lentre externe (la
ralit , en suivant la mtaphore) comme le fait von Foerster. Ensuite et
surtout, si on accepte lide que la cognition est une reprsentation de reprsentation (une computation de computation), alors on souvre la possibilit de
reprsenter dans le langage des proprits du calcul lui-mme, en particulier le
fait quil ait des solutions et quil se termine. Mais un langage dans lequel ces
proprits sont reprsentables est un langage qui comporte des fonctions qui
sont rcursivement numrables mais non pas rcursives, et donc qui conduit
des indcidabilits.
Ce qui est curieux, cest que von Foerster ait suivi pas pas la construction
de la thorie de la rcursion pour dvelopper ses diffrents tages (machine
triviale, machine non triviale, reprsentation de reprsentation) mais quil situe
la difficult l o la thorie de la rcursion nous donne quelque assurance
(trouver le numro de code du programme qui calcule en fonction de son
propre numro de code est possible) et non pas l o cette mme thorie la
situe (une reprsentation des proprits du calcul lui-mme nous ouvre le
domaine de lindcidable). Il semble donc que von Foerster, qui tait un physicien dorigine, ait bien eu connaissance des travaux de Kleene (de 1938),
mais pas du thorme des quatre (de 1961-70), si bien quil considrait que la
thorie de la rcursion offrait des perspectives thoriques positives (il existe un
code du programme qui calcule une fonction dpendant entre autres de ce
code), la difficult tenant pour lui seulement trouver une procdure qui permette de calculer effectivement ce code.
On pourrait tenter de justifier von Foerster en adoptant linterprtation de
Webb, pour qui les thormes de limitation montrent justement que les fonctions rcursives permettent dexprimer lauto-rfrence, donc lindcidabilit,
si bien que celle ci est mcanisable en un sens. Mais il faudrait aussi reconnatre avec Webb que cette mcanisation nous conduit lindcidabilit justement
quand les fonctions en cause ne sont que rcursivement numrables et non pas
rcursives. Linterprtation de Webb voit donc dans les rsultats
dindcidabilit simplement lenvers du thorme de la rcursion. On pourrait
admettre ce parallle avec Webb, si justement von Foerster avait reconnu la
positivit de ce thorme, ce quil na jamais fait explicitement.
Au del de la rcursion ?
Si on en vient Maturana et Varela, on va rencontrer un usage un peu diffrent du terme rcursif . Dans louvrage de Francisco Varela, Principles of
biological autonomy, par exemple p. 86, rcursif est dabord simplement
un terme qui dsigne lexistence, dans un systme, de relations internes entre
sous-systmes, au lieu de se borner des relations entre le systme et
lenvironnement. Ces relations sont en boucles, si bien quon retrouve la notion

134

Pierre LIVET

de feed-back. Mais rcursif est utilis aussi de faon plus prcise et ambitieuse. Dans le chapitre 12, Varela propose de considrer des rentres
dune forme (dans le calcul des formes propos par Spencer Brown). Il
reprend Spencer Brown lide que dun calcul des formes. Une forme a ici
pour symbole un gnomon, et on peut emboter un gnomon dans un autre, ce qui
revient une sorte de ngation de la ngation, ou bien les faire se suivre, mais
alors leur ritration revient un seul gnomon. On peut encore emboter plusieurs gnomons la suite dans un autre, etc. Or, ajoute Varela, si une forme
consiste en un embotement de symboles, abab, elle peut rentrer en ellemme si cet embotement est rpt linfini. On considrera alors que la
valeur de ab est moins dtermine que celle de abab, qui est moins dtermine que celle de ababab, etc. linfini. Si bien que la valeur dune rentre
est la limite de cette forme de rentre quand son embotement tend vers
linfini. Le problme est que ds quon admet que toute forme peut rentrer en
elle-mme, et que lon considre cette valeur limite comme le point fixe de la
rentre (puisqualors, la rentre ne modifie plus la valeur de la forme), toute
forme est elle-mme (en tant que rentrante) son propre point fixe. Ds lors la
distinction entre le dcidable et lindcidable nest plus si tranche, puisque les
deux sont des points fixes, le dcidable tant le point fixe du prdicat dmontrable et lindcidable le point fixe du prdicat non dmontrable . La
thorie de la rcursion tait sous estime par la premire et la seconde cyberntique, mais ces troisimes cybernticiens font un saut au del delle.
Quen est-il enfin des connexionnistes ? On sait quils achoppent sur le
problme dapprendre un rseau traiter des structures symboliques en
conservant leurs proprits structurelles. Le rseau associe, mais il mlange, et
perd ainsi la trace des diffrences structurelles. Plusieurs dispositifs avaient t
imagins dans les annes 90-95 pour permettre aux rseaux de retrouver par
dcomposition ce quils avaient commenc par composer. En particulier avait
t propose la notion de mmoire auto-associative rcursive. Elle consistait
partir dune couche dinputs, les compresser dans une couche dunits
caches, puis les dcompresser dans une couche de sortie. Lalgorithme de
rtropropagation consistant rpercuter les corrections derreur de la couche
de sortie sur la couche cache, on apprenait ainsi cette couche cache oprer des compressions qui puissent redonner la forme dcompresse, conservant
ainsi sa structure.
On a ensuite perfectionn la procdure, dabord en introduisant des boucles
de rcurrence dans un tel rseau. Soit la couche dunits caches renvoie ses
tats vers une partie des units inputs, soit cest la couche de sortie qui opre le
mme renvoi. Le but dune telle rcurrence est bien entendu de faire dpendre
lopration en cours du rsultat de lopration prcdente (on retrouve notre
embotement rcursif la von Foerster). Mais il est aussi et surtout de tenir
compte des effets de contexte entre les symboles donns en inputs, cest--dire
des relations pertinentes entre tel symbole qui apparat sur la fentre de traitement de ce que le rseau prend comme entre, et tel symbole voisin, mais hors
de la fentre de traitement, et qui ne sera pris en compte que dans ltape suivante, alors que le premier symbole ne figurera plus dans la fentre dentre.
Puis on a mis en loeuvre lide suivante. Analysons par des mthodes statistiques les distinctions actives dans les units caches. Construisons partir
de cette analyse les graphes dautomates tats finis. Plus lanalyse (par
clusters) sera fine, plus le graphe sera complexe. Puis nous faisons tourner ces
automates tats finis sur les nouveaux exemples traiter. Ou encore, nous

La notion de rcursivit, de la premire cyberntique au connexionnisme

135

pouvons extraire les rgles propres ces automates tats finis, et les encoder
de faon approximative dans le rseau (en abaissant systmatiquement certains
poids de connexions, et en en remontant systmatiquement certains autres, ce
de manire compatible avec le traitement de telle entre par lautomate). Les
performances sont meilleures quavant dans les deux cas.
Quen tait-il de ces manoeuvres par rapport la thorie de la rcursion ?
Certes, comme lont montr Bochereau, Bourgine et Deffuant, il suffit de
mettre en sortie dun rseau une fonction de dcision qui envoie le rsultat soit
sur 1 soit sur 0 pour avoir transform le rseau en un classifieur, qui est une
machine logique. On a ainsi une quivalence entre rseau et machine logique.
Le problme, cest quon ne sait pas quelle est la machine logique dont le
rseau est lmulation. Or cest ncessaire de le savoir, pour sassurer si cest
bien une fonction rcursive, et non pas seulement rcursivement numrable, et
pouvoir appliquer le thorme de la rcursion. Mais, comme le rappellent les
mmes auteurs, le problme de lextraction des rgles (le problme que traitent
de manire approche ceux qui extraient des automates tats finis des
rseaux) est NP-complet - il nexiste pas dalgorithmes qui puisse rsoudre ce
genre de problme en un temps born par un polynme de degr donn. Sans
doute, on sait que les rseaux couches (ou mme forme buissonnante )
approximent des fonctions qui ne prsentent pas des ruptures de pentes trop
importantes (les fonctions lipzitschiennes ). Mais justement ils nen sont
que des approximations. Hornik a montr que si la fonction dactivation du
rseau est continue, borne et non constante, la distance entre les valeurs de la
fonction calcule par le rseau et les valeurs de la fonction relle peut tre
rendue arbitrairement petite si on peut toujours ajouter de nouvelles units
caches au rseau3 . Mais pour cela, il faut que les fonctions dactivation soient
non polynomiales4. La stratgie dextraction des automates se heurte aussi
un problme : la performance relle (en fait virtuelle, sur dautres bases
dexemples) nest celle des automates tats finis qu la limite, et elle comprend celle de tous les automates, en incluant ceux qui ont des rsultats
inconsistants avec la base dapprentissage, cest--dire qui ne donnent pas les
sorties souhaites. Bien entendu, on va se restreindre aux automates consistants
avec les sorties souhaites, et mme on va prfrer le plus petit de ces automates. Mais cest l une dcision pragmatique, dont on ne connat pas les effets.
Au total, on ne peut pas dire si un rseau calcule telle fonction. Il
lapproche. videmment cela implique (comme en principe les variations des
poids des connexions peuvent tre continues) quil existe une infinit de
rseaux qui approchent cette fonction (mais certains deux pourraient aussi tre
dits en approcher dautres). Or une fonction approche , dans sa singularit,
nest justement pas, en gnral, une fonction rcursive. A fortiori, on ne peut
rien dire de la squence de fonctions ou de la fonctionnelle que pourrait approcher un rseau sous diffrents apprentissages, sous diffrentes volutions. Les
rseaux connexionnistes vont donc au del des fonctions rcursives, alors
mme quils sont aussi en de, puisquils ne garantissent jamais totalement le
respect de la structuration des symboles ncessaire la rcursivit.

Hornik Kurt, Approximation Capabilities of Multilayer Feedforward Networks, Neural Network,


Vol. 4 pp. 251-257, 1991, p. 252.
4
Hornik Kurt, Some new results on Neural network Approximation, in Neural Networks, Vol. 6, pp.
1069-1072, 1993, p. 1070.

136

Pierre LIVET

Yves-Marie Visetti a cependant fait remarquer que le but des connexionnistes, pas plus que ne ltait celui de von Foerster, nest de garantir que les
rseaux retrouveront des fonctions que nous pouvons identifier par dautres
moyens, ni de servir eux-mmes comme moyens pour identifier des classes de
fonctions (celles quils permettent dapprocher et les autres, celles que les
rseaux trois couches et sans rcurrence permettent dapprocher, celles que
les rseaux trois couches et avec rcurrence approximent, etc.). Le but des
connexionnistes est simplement de produire de la complexit, donc de ne pas
se borner des fonctions qui dcrivent un espace born, mais de dplacer les
bornes tout en dveloppant la fonction, pour dcouvrir de nouveaux espaces.
De mme von Foerster navait pas pour ambition ni pour souci de relier les
comportements de ses fonctions rcursives une thorie de la rcursion qui
permettait de savoir davance dans quel espace de fonctions il se dplaait,
mais il voulait tout simplement produire des comportements complexes.
Cest bien une tendance du connexionnisme, mais il ne pourra devenir autre
chose quune technique de simulation de la complexit que si lon peut utiliser
les rseaux pour mettre lpreuve des classifications mathmatiques, donc si
on se repose la question de savoir quelle classe de fonctions tel type de rseau
peut approximer (et non pas vraiment calculer). Bien des travaux vont depuis
10 ans dans ce sens, mais bien dautres se bornent simplement combiner des
rseaux avec diverses formes de systmes symboliques, de manire pallier les
difficults de stabilit catgorielle des rseaux.
Finalement, les premiers cybernticiens aussi bien que leurs descendants
successifs ont toujours tourn autour de la thorie de la rcursion, que ce soit
en de ou au del, tout en tant toujours en dphasage avec elle. Il devient
maintenant ncessaire de ne plus dsigner la complexit comme un horizon ou
comme des lendemains qui chantent. Nous ne pouvons pas ltudier directement, puisquelle se dfinit par ce qui chappe une analyse effective. Mais les
travaux danalyse des outils artificiels comme les systmes connexionnistes ont
pour but de relier certaines formes complexes des catgorisations mathmatiques, pour nous donner des repres dexploration de ce domaine que nous
savons ne pas pouvoir puiser.
Rfrences
Ashby, W.R. (1962). Principles of the self-organizing system. in H. von Foerster et
G.W. Zopf (eds.), Principles of self-organization. Pergamon Press: 255-278.
Bell J. L. et Machover M., 1975, A course in mathematical logic, Amsterdam, New
York, North Holland : 259, 269, 273-5, 282, 313.
Bochereau, L., Bourgine, P., Defuant, G. (1991). quivalence entre classificateurs
connexionnistes et classificateurs logiques. Intellectica, 1991/2, 12 : 139-158.
Elman, J.L. (1991). Distributed representations, simple recurrent networks, and
grammatical structure. Machine Learning, 7: 195-225.
Giles C. Lee, Omlin Christian. W. (1993). Extraction, Insertion and Refinement of
Symbolic rules in dynamically driven recurrent neural networks , Connection
Science, Vol. 5, n 3 et 4 : 307-334.
Hornik Kurt, 1991, Approximation Capabilites of Multilayer Feedforward
Networks , Neural Network, vol 4 : 251-257.
Hornik Kurt Some new results on Neural network Approximation , in Neural
Networks, Vol. 6, pp. 1069-1072, 1993, p. 1070.
Kwasny, Stan C., Kalman Barry L. (1995). Tail-recursive Distributed representations
and Simple recurrent networks. Connection Science, vol 7, n1: 61-80.
Pollack, J. (1990). Recursive distributed representations. Artificial Intelligence, 46: 77105.

La notion de rcursivit, de la premire cyberntique au connexionnisme

137

Rosenblueth Arturo, Wiener Norbert, Bigelow Julian, (1943). Behavior, Purpose and
Teleology. Philosophy of science, vol. 10, January: 18-24.
Varela, Francisco (1979). Principles of biological organization. Amsterdam, New
York: North Holland.
von Foerster, Heinz (1969). What is memory that it may have hindsight and foresight
as well. The Future of brain sciences, Bogoch ed, Plenum Press: 19-64
von Foerster, Heinz (1970). Molecular ethology, an immodest proposal for semantic
clarification. in Molecular mechanism in memory and learning, G. Hungar ed.,
Plenum Press: 213-248,
von Foerster, Heinz (1973). On constructing a reality. in Environmental design
research, vol. 2., F.E. Preiser ed. Dowden, Hutchinson and Ross, Strousburg : 3546.
Webb, Judson C., Mechanism, Mentalism, and Metamathematics: an essay on Finitism,
Reidel, Dordrechte, 1980.

Vous aimerez peut-être aussi