Vous êtes sur la page 1sur 15

Abonnez-vous à DeepL Pro pour traduire des fichiers plus volumineux.

Visitez www.DeepL.com/pro pour en savoir plus.

0893-6080/89 3,ID + .00


Copyright 8 1989 Pergamon Press plc
Neural Networks, Vol. 2, pp. 359-366, 1989
Imprimé aux États-Unis. Tous droits
réservés.

CONTRIBUTION
ORIGINALE

Les réseaux multicouches de type


feedforward sont des
approximateurs universels

KUR' HORNIK
Technische Universitiit Wien

Université de Californie, San Diego

(Reçu le 16 septembre 1988 ; révisé et accepté le 9 mars 1989)

A bslracl-Le présent document établit de manière rigoureuse que les réseaux d'anticipation multicouches
standard comportant aussi peu qu'une couche cachée et utilisant des fonctions d'écrasement arbitraires sont
capables d'approximer toute fonction mesurable de Borel d'un espace de dimension finie à un autre avec le
degré de précision souhaité, à condition qu'un nombre suffisant d'unités cachées soit disponible. En ce sens, les
réseaux d'anticipation multicouches constituent une classe d'approximateurs universels.
Mots clés-Réseaux de type "feedforward", approximation universelle, réseaux de cartographie, capacité
de représentation des réseaux, théorème de Stone-Weierstrass, fonctions d'écrasement, réseaux Sigma-Pi,
réseaux de rétropropagation.
conférences de l'IEEE sur les réseaux neuronaux
1. INTRODUCTION (1987, 1988) pour obtenir un échantillon d'exemples.
La capacité apparente des aliments pour animaux
Près de vingt ans se sont écoulés depuis que
suffisamment élaborés
Minsky et Papert (1969) ont démontré de
manière concluante que le simple perceptron à Les réseaux en amont permettent d'obtenir une
deux couches est incapable de représenter ou bonne approximation de la quasi-totalité des réseaux
d'approximer utilement des fonctions en dehors en aval.
d'une classe très étroite et spéciale. Bien que
Minsky et Papert aient laissé ouverte la possibilité
que les réseaux multicouches soient plus
performants, ce n'est qu'au cours des dernières La participation de White a été soutenue par une subvention de
la Fondation Gug- genheim et par la subvention SES-8806990 de
années que les chercheurs ont commencé à la National Science Foundation. Les auteurs sont reconnaissants
explorer la capacité des réseaux feed- forward aux arbitres pour leurs suggestions utiles.
multicouches à approximer des mappings généraux
Les demandes de réimpression doivent être adressées à Halbert
d'un espace de dimension finie à un autre. White, De- partment of Economics, D-008, UCSD, La Jolla,
Récemment, cette recherche a virtuellement CA 92093.
explosé avec des succès impressionnants dans
une grande variété d'applications. Le champ de ces
applications est trop vaste pour que l'on puisse
mentionner ici des détails utiles ; le lecteur intéressé
est invité à se reporter aux actes des récentes
multicouches (par exemple, Hecht-Nielsen, 1987)
Toute fonction rencontrée dans les applications citent souvent le théorème de superposition de
conduit à s'interroger sur les capacités ultimes Kolmogorov (1957) ou ses améliorations plus
de ces réseaux. Les succès observés jusqu'à récentes (par exemple, Lorentz, 1976) à l'appui
présent sont-ils le reflet d'une capacité de leurs capacités. Toutefois, ces résultats exigent
d'approximation profonde et fondamentale, ou une transformation inconnue différente (g dans la
s'agit-il simplement de coups de chance, résultant notation de Lorentz) pour chaque fonction continue
d'un rapport sélectif et d'un choix fortuit de à représenter, tout en spécifiant une limite
problèmes ? Les réseaux multicouches de type supérieure exacte au nombre d'unités
feedforward sont-ils en fait intrinsèquement limités intermédiaires nécessaires pour la représentation.
à l'approximation d'une classe assez spéciale de En revanche, des fonctions d'écrasement très
fonctions, bien qu'une classe quelque peu similaire spécifiques (par exemple, logistique, tangente
à celle du perceptron lowty ? L ' objectif de cet article hyperbolique) sont utilisées dans la pratique, avec
est de répondre à ces questions. Nous montrons que nécessairement peu d'attention pour la fonction
les réseaux multicouches de type feedforward ne approximée et avec un nombre d'unités cachées
comportant qu'une seule couche cachée sont en augmenté ad libitum jusqu'à ce qu'un certain
effet capables d'une ap- proximation universelle niveau souhaité de précision d'approximation soit
dans un sens très précis et satisfaisant. Les atteint. Al-
défenseurs des vertus des réseaux feedforward

359
360 souhaité, à condition qu'un nombre suffisant d'unités
cachées soit disponible. Ces résultats établissent que
Bien que le résultat de Kolmogorov fournisse un
les réseaux feedfor-
théorème de possibilité théoriquement important, il
Les réseaux d'unités cachées constituent une classe
n'explique pas et ne peut pas expliquer les succès d'approximateurs universels. En tant que tels, les
obtenus dans les applications.
échecs dans les applications peuvent être attribués à un
Dans des travaux antérieurs, Le Cun (1987) et
apprentissage inadéquat, à un nombre insuffisant
Lapedes et Farber (1988) ont montré que des
d'unités cachées ou à la présence d'une relation
approximations adéquates d'une fonction
stochastique plutôt que déterministe entre l'entrée et la
inconnue utilisant des fonctions d'écrasement
cible. Nos résultats n'abordent pas la question du
monotones peuvent être obtenues en utilisant deux
nombre d'unités nécessaires pour atteindre un degré
couches cachées. Irie et Miyake (1988) ont donné un
d'approximation donné.
résultat représentatif (approximation parfaite) en Le plan de ce document est le suivant. Dans la section
utilisant une couche cachée, mais avec un continuum 2, nous présentons nos principaux résultats. La
d'unités cachées. Malheureusement, ce type de résultat a section 3 contient une discussion de nos résultats, des
peu d'utilité pratique, malgré sa grande utilité orientations pour d'autres recherches et quelques
théorique. remarques finales. Les preuves mathématiques
Récemment, cependant, Gallant et White sont données en annexe.
(1988) ont montré qu'un réseau feed- forward
particulier à une seule couche cachée utilisant
le monotone "cosine squasher" est capable 2. PRINCIPAUX RÉSULTATS
d'intégrer comme un cas spécial un réseau de Fourier
qui produit comme sortie une approximation de la
Nous commençons par des définitions et des notations
série de Courier d'une fonction donnée. Ces réseaux qui nous permettent de parler précisément de la classe
possèdent donc toutes les propriétés des réseaux feedforward multicouches sous
oonsidorntinn.
d'approximation des représentations des séries de
Fourier.
degré de précision de toute fonction intégrable au
carré sur un ensemble compact en utilisant un
nombre fini d'unités cachées. Néanmoins, les résultats
de Gallant et White ne justifient pas l'utilisation de
réseaux feedforward multicouches arbitraires comme
approximateurs uni- versels, mais seulement d'une
classe particulière de réseaux à une seule couche
cachée dans un sens particulier (mais important).
D'autres résultats connexes utilisant la fonction
d'écrasement lo- gistique (et un grand nombre
d'informations utiles) sont donnés par Hecht-
Nielsen (1989).
Le présent document utilise le théorème de Stone-
Weier- strass et le "cosine squasher" de Gallant et
White pour établir que les architectures de
réseaux feed- forward multicouches standard
utilisant des fonctions d'écrasement arbitraires
peuvent approximer pratiquement n'importe quelle
fonction d'intérêt avec le degré de précision
K. Hornik, M. Stinchcombe et H. White 1986 ; Williams, 1986) de la manière suivante.

Définition 2.1
Définition 2.4
Pour tout r E N -- (1, 2, . j, Ar est l'ensemble
de toutes les fonctions aNine de fi' à n, c'est-à- Pour toute fonction mesurable G() qui fait
dire l'ensemble de toutes les fonctions de la forme
correspondre fi à R et r C N, notons ZII'(G) la
A(x) = ir-z + b où ir et x sont des vecteurs dans B', classe des fonctions
"-" désigne le produit point habituel des
vecteurs, et b H R est un scalaire.

O
Dans le présent contexte, z correspond à
l'entrée du réseau, ir correspond aux poids du
réseau de l'entrée à la couche intermédiaire, et
b correspond à un biais.

Définition 2.2
Pour toute fonction mesurable (Borel) C(-)
reliant fl à R et r E N, Z*(C) est la classe
des fonctions
q = 1, 2,...}. Q
Un cas important se produit lorsque C est
une "fonction d'écrasement", auquel cas Z'(C ?) est
la classe familière de fonctions de sortie pour les
réseaux à une seule couche cachée avec écrasement
à la couche cachée et sans écrasement à la couche
de sortie. Les scalaires Q ; correspondent aux poids
du réseau entre les couches cachées et les
couches de sortie.
Par commodité, nous définissons formellement ce
que nous entendons par fonction d'écrasement.

Définition 2.3
Une fonction T : R -+ [0,1] est une fonction
d'écrasement si elle est non décroissante,
lim;yq T( ?.) = 1, et lim,q T(2) = 0.

Q
Comme les fonctions d'écrasement ont au plus un
nombre limité de discordances, elles sont mesurables.
Des exemples utiles de fonctions d'écrasement sont
les fonctions à trois temps, T(2) = 1 pq (où
1t.t désigne la fonction indicatrice), la
fonction de rampe, T(2) =
21pg,",t + 1,>, et l'équation du cosinus de
Gallant et White (1988), '1'(2) = (1 + cos[2
+ 3s/2])
(1/2) 1/ .t/2G1 "n/2) -I- 1 yer/2}-

Nous définissons une classe de fonctions de


sortie du réseau ZH (Maxwell, Giles, Lee et Chen,
Multilöyer Feedforward Neu 361

Nos résultats généraux seront d'abord prouvés pour les fonction continue à valeur réelle sur un ensemble
réseaux ZH et ensuite étendus aux réseaux 2. Ces compact. La condition relative à l'ensemble compact
derniers sont le cas particulier des réseaux ZH pour s'applique lorsque les valeurs possibles des entrées
lesquels 1 ; -- 1 pour tout J. z sont limitées (z C K). Une caractéristique
La notation des classes de fonctions que nous intéressante de ce résultat est que la fonction
envisageons d'approximer est donnée par la d'activation G peut être n'importe quelle fonction
continue non constante. Il n'est pas nécessaire
définition suivante. qu'il s'agisse d'une fonction d'écrasement, bien que
cela soit tout à fait possible. Un autre type
intéressant de fonction d'activation autorisé par ce
Définition 2.5 résultat se comporte comme une fonction
Soit C' l'ensemble des fonctions continues de Mr d'écrasement pour des valeurs de A(x) inférieures à
R, et que M' est l'ensemble de toutes les un niveau donné, mais diminue ensuite de façon
fonctions Borel mesurables de It' à B. Nous continue jusqu'à zéro lorsque A(z) augmente au-delà
désignons le champ de Borel w de A' par B". O de ce niveau. Nos résultats suivants découlent tous
Les classes Z'(G) et ZfI'(G) appartiennent à M' du théorème 2.1. Afin d'interpréter les métriques
pour tout mesurable de Borel C. Lorsque G est pertinentes pour nos résultats ultérieurs, nous
continu, introduisons le no- suivant
£'(G) et ZH'(C) appartiennent à C'. La classe C' tion.
est un sous-ensemble de M', qui contient en fait
pratiquement toutes les fonctions pertinentes dans les Définition 2.8
applications. Il existe des fonctions qui ne sont pas
mesurables selon Borel (par exemple, Billingsley, Soit y une mesure de probabilité sur (fl', B'). Si /
1979, pp. et
36-37),
résultatsmais ils sont pathologiques. Nos premiers g appartiennent
équivalents si y{zàHM', on qu ils sont p-
concernent des fonctions d'approximation dans C' ; <':/(-) - i(-)1 - dit ' o
nous ex
tendre ces résultats à l'approximation des fonctions Si l'on considère que y est une mesure de
dans ñf'. La proximité des fonctions J et g probabilité (c'est-à-dire,
appartenant à C' ou 3f' est mesurée par une u(A') = 1) est une question de commodité ; nos
métrique, p. La proximité d'une classe de fonctions par résultats sont en fait valables pour des mesures
rapport à une autre classe est décrite par la con- finies arbitraires. Il n'est pas nécessaire que le con-
Cept de la densité. texte soit probabiliste. Quoi qu'il en soit, la mesure
y décrit la fréquence relative d'occurrence des
Définition 2.6 "modèles" d'entrée z. La mesure y est
"l'environnement de l'espace d'entrée" selon la
Un sous-ensemble S d'un espace métrique (A, p) terminologie de White (1988a). Les fonctions qui
est p - dense dans un sous-ensemble T si pour sont équivalentes à y ne diffèrent que sur un
chaque et pour chaque r CT ensemble de motifs se produisant avec une
il existe un s C S tel que p(s, r) < e. D probabilité (mea- sure) zéro, et nous ne sommes
En d'autres termes, un élément de S peut concernés que par la distinction entre les classes
approcher les éléments suivants de fonctions équivalentes.
un élément de T avec le degré de précision La métrique sur les classes de fonctions
souhaité. Dans nos théorèmes ci-dessous, T et A équivalentes à y
correspondent à C' ou Mr S correspond à 2'(C) ou La définition suivante est importante pour nos
ZfI'(G) pour des choix spécifiques de G, et p est principaux résultats.
choisi de manière appropriée.
Notre premier résultat s'énonce comme suit uetinition Z.y
meti ics on Cr
Étant donné une mesure de probabilité y sur
(R',B'), définir la métrique pp de M' x M' à n + par
pp(f,g) = inf
Définition 2.7
Deux fonctions sont proches dans cette
métrique si et seulement Un sous-ensemble S de C' est dit uniformément dense sur s'il n'y a qu'une faible
probabilité qu'elles diffèrent compacta dans C' si pour chaque sous-ensemble compact K CJt' S
significativement. Dans le cas extrême où / et g sont est ppdense dans C', où pour /, g C C' pz(f,g) - y-
équivalent p,(J,g) est égal à zéro.
sup.ex1J(g) - g(x) . Une séquence de fonctions ({ } Il existe de nombreuses façons équivalentes de
décrire ce que
converge vers une fonction f uni OKfZllfl Oft CO RàCtà Si cela signifie que pp(f , f) converge vers zéro.
pour tout K C A' compact pg(J "J) -+ 0 comme n -+ =. O
Nous pouvons maintenant énoncer notre premier résultat principal.
Lemma 2.1. Tous les points suivants sont
équivalents,
Théorème 2.1 (£t) pq(f ,J) -+ 0.
Soit G toute fonction continue non constante de (b ) Pour tout e 0 y{z : | J,(z) - J(z)| > t} -r 0. A à B.
Alors ZH'(C) est uniformément dense sur les compacts (c) J min(|/,(z) - J(z)|, 1} y(dr) -- 0. D
dans C'. O
En d'autres termes, les réseaux feedforward ZH sont ca-D'après (b), nous voyons que la convergence p,- est
équivalente
La méthode de l'approximation arbitrairement précise de n'importe quelle mesure de probabilité. à la
convergence en probabilité (ou mesure). En fb)
362 standard avec une seule couche cachée peuvent
approximer toute fonction continue uniformément
sur tout ensemble compact et toute fonction
la métrique euclidienne peut être remplacée par
mesurable arbitrairement bien dans la métrique
toute métrique sur A générant la topologie
pp, quelle que soit la fonction d'écrasement T
euclidienne, et l'intégrande en (c) par toute
(continue ou non), quelle que soit la dimension de
métrique bornée sur A générant la topologie
l'ensemble compact et quelle que soit la dimension
euclidienne. Par exemple d (a, b) -- a - b 1(l + a -
de l'ensemble compact.
b|) est une métrique bornée générant la
l'espace d'entrée r, et rogsrd1eeo de l'espace d'entrée
topologie euclidienne, et (c) est vrai si et
seulement si d (f (x), /(z))y(dr) -+ 0.
Le lemme suivant relie la convergence uniforme
sur les espaces compacts à la p,-convergence.

Apprend ñ.ñ. Si (/p} dans o soquc rice de fonctions


dans Af' qui converge uniformément sur les compacts
vers la fonction f alors p,(J" J)-r 0 O
Nous énonçons maintenant notre premier
résultat sur l'approximation des fonctions dans
M'. Il découle du théorème 2.1 et du lemme 2.2.

Théorème 2.2

Pour toute fonction continue non constante G, tout r


et toute mesure de probabilité sur (n', B'), EH'(G)
est p -dense dans M'
En d'autres termes, une seule couche cachée
dans les réseaux d'alimentation peut approximer
arbitrairement bien toute fonction mesurable,
quelle que soit la fonction continue non constante
C utilisée, quelle que soit la dimension de
l'espace d'entrée r et quel que soit
l'environnement de l'espace d'entrée y. Dans ce
sens précis et satisfaisant, les réseaux ZH sont
des approxi- mateurs universels.
L'exigence de continuité sur G exclut la
fonction seuil T(2) = 1,", . Cependant, pour les
fonctions d'écrasement, la continuité n'est pas
nécessaire.

Théorème 2.3
Pour toute fonction d'écrasement T, tout r et toute
mesure de probabilité ,u ou (R',Br) zn'(T) est uni-
formellement dense sur les compacts dans C' et
p,-dense dans M'. O
En raison de leur structure plus simple, il est
important de savoir que les réseaux Zfl les plus
simples, les réseaux Z, ont des capacités
d'approximation similaires.

Théorème 2.4

toute fonction d'écrasement T, tout r et toute


mesure de probabilitésur (A',B'), Z'(T) est
uniformément dense sur les ensembles
compacts dans C' et p -dense dans ñf'. O
En d'autres termes, les réseaux feedforward
K. Hornik, M. Stinchcombe et H. White
Définition 2.10
l'environnement ,u. Ainsi, les réseaux Z sont L (R', y) (ou simplement Lp) est l'ensemble des / C
également universels M' tels que J |J(z)|^ y(dx) < >. La norme de L est
des approximateurs. définie par 11/11, = [!\I(-) p(dx))"^. La métrique
Le théorème 2.4 implique le théorème 2.3 et, associée sur L, est définie par pt(f, g) -- ||J - g||,. O
Le résultat de l'approximation de L, est le
pour les fonctions d'écrasement, le théorème 2.3
suivant.
implique le théorème 2.2. L'énoncé de nos
résultats dans l'ordre donné reflète l'ordre naturel Corollaire 2.2
de leurs preuves. De plus, le fait de dériver le S'il existe un sous-ensemble compact K de R' tel
que p(K) -- 1 alors Z'(V) estpp dense dans L,(A', y)
Théorème 2.3 comme une conséquence du Théorème pour tout p E [1, <), indépendamment de T, r, ou
2.4 obscurcit sa simplicité. y. O
Nous avons également obtenu immédiatement le
La structure de la preuve du Théorème 2.3 (re- résultat de l'enquête sur les chutes.
spectivement 2.4) révèle qu'un résultat similaire est
valable si
-T- in not restricted tc' be o say uns1iii-s fuiivitiuii, Limi"
toute fonction mesurable telle que ZH'('P)
(respec- tivement Z'('P)) se rapproche
uniformément d'une fonction d'écrasement sur
les espaces compacts. Stinchcombe et White
(1989) donnent un résultat analogue au
théorème 2.4 pour les fonctions d'activation de
la couche cachée non nigmoïde.
Après la première apparition de nos résultats
(Hornik, Stinchcombe, & White, 1988), Cybenko
(1988) a obtenu indépendamment le résultat
d'approx- imation uniforme pour les fonctions
dans C' contenu dans le Théo- rem 2.4.
L'approche très différente de Cybenko utilise
élégamment le théorème de Hahn-Banach.
Une série de corollaires découle facilement
des résultats ci-dessus. Dans tous les résultats
qui suivent, T est une fonction d'écrasement.

Corollaire 2.1
Pour toute fonction g dans 3f', il existe un sous-
ensemble compact K de A' et un J O Z'(T) tel
que pour tout e > 0 on a y(x) < 1 - e et pour tout
z O K on a f(x) - g(x) < e, indépendamment de T,
r ou y. O
En d'autres termes, il existe un réseau feed-
forward à une seule couche cachée qui
approxime n'importe quelle fonction mesurable
avec n'importe quel degré de précision souhaité
sur un ensemble compact K de motifs d'entrée
qui, avec le même degré de précision, a une
mesure (probabilité d'oc- currence) de 1. Notez la
différence entre le corollaire
2.1 et le théorème 2.1. Dans le théorème 2.1g est
continue et K est un ensemble compact arbitraire
; dans le corollaire 2.1 g est mesurable et K doit
être spécialement choisi.
Notre prochain résultat concerne les
npprnximntinn dans Lp-
espaces. Nous rappelons la définition suivante.
Multilayer Feedforward News plusieurs couches cachées. Par souci de simplicité,
nous ne considérons explicitement que le cas des
Corollaire 2.3 réseaux Z multicouches. Nous désignons la classe
des fonctions de sortie pour les réseaux
Si est une mesure de probabilité sur [0,1]' alors feedforward multicouches à 1 couche (sans
X'(T) est p -dense dans L ([0, 1]', y) pour tout p C compter la couche d'entrée, mais en comptant la
[1, >), re- sans T, r, ou q. Q sortie

Corollaire 2.4
Si p met la masse 1 sur un ensemble fini de points, alors
pour tout g Mr et pour tout e 0 il y a un J
C Z'(T) tel que ,u(z : |J(z) - g(z)| < e} = 1. O

Corollaire 2.5
Pour toute fonction booléenne g et tout e 0, il
existe un / dans Z'(T) tel que max,g t" |g(z) - /(z)|.

En fait, la représentation exacte des fonctions


à support fi- ni est possible avec une seule
couche cachée.

Théorème 2.5
Soit (z" ... , z,} un ensemble de points distincts
dans It' et que g : B' -+ A soit une fonction
arbitraire. Si T réalise 0 et 1, alors il existe une
fonction JE Z'(T) avec n unités cachées telle que
J(z ;) = g(z ;), i H (1, . . .
n1-
Moyennant quelques modifications fastidieuses,
la preuve de ce théorème s'applique lorsque T est
une fonction d'écrasement arbitraire.
Les résultats précédents concernent les réseaux
à une seule sortie. Des résultats analogues sont
valables pour les réseaux à sorties multiples
approximant des fonctions continues ou
mesurables de A' à A', s G N, dénotées C"' et ñf"',
respectivement. Nous étendons Zr et EH' à S'-'
nun EH' ' respectivement en réinterprétant Qi
comme un vecteur s x 1 dans les définitions 2.2
et 2.4. La fonction g : R' -+ A' a des éléments g ;, i --
1, ... , s. Nous avons le résultat suivant.

Corollaire 2.6
Les théorèmes 2.3, 2.4 et les corollaires 2.1-2.5
restent valables pour les classes ZH' '(T) et/ou
Z' '('P) approxi- mant les fonctions dans C '" et ñf''
avec pp remplacé par p'p, p'p(f, g) - Z'., p (f ;, g,)
et avec pp remplacé par sa généralisation
multivariée appropriée. O Ainsi, les réseaux
feedforward multicouches à sorties multiples
sont des approximateurs universels de réseaux à
valeurs vectorielles.
fonctions.
Tous les résultats précédents concernent des
réseaux à une seule couche cachée. Notre
dernier résultat décrit les capacités d'approximation
des réseaux multicouches à sorties multiples avec
363 1961) pour des sous-ensembles de Jr comportant
un nombre fixe d'unités cachées. En tant que sous-
produit naturel des résultats de l'entropie métrique, on
Les règles d'activation des éléments d'un tel
obtient des taux assez spécifiques auxquels le
réseau sont les suivantes
nombre d'unités cachées peut croître à mesure
a , -- G (A,(az )) i = 1, ... , q ; k -- 1, ... , 1, que le nombre d'instances d'apprentissage
augmente, tout en garantissant la propriété
où -k est un vecteur q¿ X 1 dont les éléments sont statistique de cohérence (c'est-à-dire en évitant le
az ;, az --par convention, C" , C, , = T, C, est la surajustement).
carte d'identité,qt r, et q -- s. Nous avons le Un domaine connexe important pour la poursuite
résultat suivant.
de la recherche est

Corollaire 2.7
Le théorème 2.4 et les corollaires 2.1-2.6 restent
valables pour les classes multicouches à sorties
multiples Z;'('P) approxi- Impression fuiictiuiis en C-
anal off '=, avec p et pp replacés comme dans le
corollaire 2.6, à condition que 12.
O Ainsi,
les réseaux Z/* sont des approximateurs
universels
de fonctions à valeur vectorielle.
Nous remarquons que toute mise en œuvre
d'un réseau Zfl,* est également un
approximateur universel puisqu'il contient les
réseaux Z, en tant que cas particulier. Nous
évitons d'examiner explicitement ces derniers en
raison de leur complexité non rationnelle.

3. DISCUSSION ET
CONCLUSIONS
Les résultats de la section 2 établissent que les
réseaux feedforward multitâches standard sont
capables d'approximer n'importe quelle fonction
mesurable avec le degré de précision souhaité,
dans un sens très spécifique et satisfaisant.
Nous avons donc établi que de tels réseaux de
"cartographie" sont des approximateurs
universels. Cela implique que tout manque de
succès dans les applications doit provenir d'un
apprentissage inadéquat, d'un nombre
insuffisant d'unités cachées ou de l'absence
d'une relation déterministe entre l'entrée et la
cible.
Les résultats présentés ici fournissent également
une base fondamentale pour établir
rigoureusement la capacité des réseaux
feedforward multi-couches à apprendre (c'est-à-
dire à estimer de manière cohérente) les forces
de connexion qui permettent d'obtenir les
approximations dont la faisabilité a été
démontrée ici. Une technique statistique
introduite par Gren- ander (1981), appelée
"méthode des tamis", est particulièrement bien
adaptée à cette tâche. White (1988b) établit de
tels résultats pour l'apprentissage, en utilisant les
résultats de White et Woolridge (sous presse).
Pour cela, il est nécessaire d'utiliser le concept
d'entropie métrique (Kol- mogorov & Tinomirov,
364 K. Hornik, M. Stinchcombe et H. White

l'étude du taux auquel les approximations utilisant Le théorème de Stone-Weierstrass implique donc que ZH'(€i)
des réseaux ZH ou Z s'améliorent à mesure que est p -dense dans l'espace des fonctions continues réelles sur K.
Comme K est arbitraire, le résultat s'ensuit. Q
le nombre d'unités cachées augmente (le "degré
d'approximation") lorsque la dimension r de Preuve du lemme 2.1
l'espace d'entrée est maintenue fixe. Ces résultats
(a) '::r(b) : Immédiat.
appuieront les résultats du taux de convergence (b)--' (c) : Si y{z:|J,(z) -- J(z)| > s/2} < s/2 alors J
pour l'apprentissage par l'estimation du tamis dans les min(|J(z)
réseaux feedforward multi-couches basés sur -- J(z)|, 1} p('£r) < s/2 + c/2
l'approche récente de Severini et Wong (1987). (c) -+(b) : Ceci découle de l'inégalité de Tchebychev. O
Un autre domaine important à étudier, que
Preuve du lemme 2.2
nous avons complètement négligé et qui dépasse le
cadre de notre travail, est la vitesse à laquelle le Choisir un e > 0. Par le lemme 2.1, il suffit de trouver N C- N tel
que pour tout n * N on ait J min(J (z) -- J(z), 1} p(fx) < c
nombre d'unités cachées nécessaires pour Sans perte de généralité, on suppose que y(B') = 1. Comme R' est un
atteindre un degré d'approximation donné doit espace métrique localement compact, est une mesure régulière (par
augmenter à mesure que la dimension r de exemple, Hal- mos, 1974, 52.G, p. 228). Il existe donc un sous-
ensemble compact K de B' avec y(x)> 1 -- c/2. Choisir N tel que
l'espace d'entrée s'accroît. L'étude de ce pour tout ri * fV sup" |J,(z)
problème de "scaling up" peut également être -- J(z) < c/2. Or -- J(z)|, 1} y(dr) +
facilitée par la prise en compte de l'entropie -/2 = * pour ail n -r rv.
métrique de Z ffr.$ et Z' '.
Les résultats présentés ici ne constituent qu'une Gemma A. Pour toute mesure finie p, C'est p -dense dans 3f'
étape d'une étude générale rigoureuse des
capacités et des propriétés des réseaux Preuve
feedforward multicouches. Néanmoins, ils Choisissons un J C ñi' arbitraire et e > 0. Nous devons
fournissent une base théorique essentielle et trouver un g C C" tel que p (J, g) < c. Pour M suffisamment
inexistante jusqu'à présent, établissant que les grand, min(|J- lt,<p, J|, 1)dy < c/2. Par Halmos (1974,
Théorèmes 55.C et D, p. 241- 242), il existe un g continu
succès obtenus à ce jour par ces réseaux dans les tel que J |J- 1t"<p -- g\dp < z/2. Donc / min(|/ -- g|, t}dy
applications ne sont pas des coups de chance, < z. Q
mais reflètent plutôt les capacités d'approximation
universelles générales des réseaux multicouches Preuve du théorème 2.2
de type feedforward.
Etant donné une fonction continue non constante, il découle du Théo-
rem 2.1 et du Lemma 2.2 que ZH'(C) est p,-dense dans C'.
Note ajoutée dans l'épreuve : Les auteurs regrettent Puisque C'est p,-dense dans ñf' par le Lemma A.1, il s'ensuit
que ZH'(C)est p -dense dans M' (appliquer l'inégalité
de ne pas avoir eu connaissance du travail triangulaire). Q
étroitement lié de Funahashi (ce journal, volume 2, L'extension des fonctions d'écrasement continues aux fonctions
pp. 183--192) au moment où la re-vision de cet d'écrasement arbitraires.
article a été soumise. Notre théorème Le lemme suivant permet d'expliquer les raisons de l'utilisation de
la méthode d'évaluation de la qualité de l'eau de mer.
2.4 et le corollaire 2.7 étendent quelque peu les
théorèmes 1 et 2 de Funahashi en autorisant des Lemma A.2. Soit F une fonction d'écrasement continue et T
fonctions d'activation non continues. une fonction d'écrasement arbitraire. Pour tout tb 0, il existe
un élément H, de Z'(T) tel que sup" |F(â) -- IN,(â)| < s.

ANNEXE MATHÉMATIQUE Preuve


En raison du rôle central joué par la théorie de Stone-Weierstrass Choisir un e > 0 arbitraire. Sans perte de généralité, prendre
également c < 1. Nous devons trouver une collection finie de
dans l'obtention de nos résultats, nous l'exposons ici. constantes, " et de fonctions affines A" j H (1,2, ..., Q -- 1} telles que
Rappelons qu'une famille sup" |F(2) -- 1}. , Q -- 1} telle que sup" |F(2) --
A nf r--D1 funettODS d0 fineed On O DGt N to an my cfi'f M if W JH
LTU3et2 +,°- ' t !,*'A,' ! 11\ - -
sous l'effet de l'addition, de la multiplication et de la Choisir f7_ tel que 1/t2 < t/2. Pour j e {1, . , t2 -- 1},
multiplication scalaire. Une famille A sépare des points de E si fixer Q, = 1/@. Choisir 3f > 0 tel que T(-- M) < s/2@ et
pour tout z,y dans E, x Z y, il existe une fonction J dans A T(3f) >
telle que J(z)I J(y). La famille A ne disparaît en aucun point de E 1 -- e/29_. Comme 'P est une fonction d'arrondi, on peut
si, pour chaque z dans £, il existe J dans A tel que trouver un tel M. Pour / £° {1, ... , t2 -- 1} fixer r ; = sup{â : F(I
/(z) 1 0. (Pour plus de détails, voir Rudin, 1964, pp. 146-- 1 -- y/ Q}. Fixer rq = sup{â:F'(J.) -- 1 -- 1/2@). Puisque F est une
153.) fonction d'écrasement continue, de tels r ; existent.
Pour tout r < s laissez A,., e A' être l'unique
fonction affine satisfaisant A, ,[r1 = ñf et A"(s) = -- M. L'ap-
Théorème de Stone-Weierstrass
Soit A une algèbre de fonctions réelles continues sur un
ensemble compact K. Si A sépare des points sur K et si A ne
s'évanouit en aucun point, on peut dire que A est une algèbre de
fonctions réelles continues sur un ensemble compact.
de
lesX,contin-
alors la fermeture uniforme B de A est constituée de tous
ues sur R
(c'est-à-dire que A est p -dense dans l'espace des fonctions proximation est alors Si,(â) = Z%,' ,T(J" Il est facile de
vérifier que sur chacun des intervalles ( -- [r , rt], ... ,
réelles continues sur K). (rp.,, rp , [rp, + 1 xc ont F{I 1 - If,(1)| < z. 0

Preuve du théorème 2.1 Preuve du théorème 2.3


Nous appliquons le théorème de Stone-Weierstrass. Soit K C fl'
n'importe quel
ensemble compact. Pour tout G,zn'(c)est évidemment une algèbre Par le Lemma 2.2 et le Theorem 2.2, il suffit de montrer que
sur K. Si x, y - K, x X y, alors il existe un A E A' tel que ZfI'(T) est uniformément densc sur les compacts dans ZH'( F j pour
C(A(z)) I G[A[y1). Pour s'en convaincre, on choisit a, ti E une certaine fonction d'écrasement con- tinue F. Pour montrer cela, il
fl, n N b tels que G(e) N suffit de montrer que toute fonction de la forme R i. F{A (-)) peut
C(6). Choisir A(-) pour satisfaire A [x) = n, A ( v) = b. être uniformément approximée par des membres de
Alors G(A(z)) F G[A(y)). Ceci assure que ZH'(C)est ZH'(T).
séparatrice sur K. Choisissez un t arbitraire > 0. Comme la multiplication est
Deuxièmement, il existe des G{At-)) qui sont constants et continue et que [0,1)' est compact, il existe un 6 > 0 tel
non égaux à zéro. Pour s'en convaincre, on choisit b que |u -- bz < d pour
H R tel que G{b) Z 0 et on pose A(x j = 0- z + b. Pour 0 a" bz 1 , k C (1, ... , I} implique 1 II'', a. -- R. b . I <
tout z E K, G [A[x)) - G{b). Ceci
encuFoe thot I II'(G') TOniDhoO at filW Ui1$k uf N-
Multicouche Feedforward Neu 365

tel que sup."|fi(â) - <-(*)l * d. Il s'ensuit que est uniformément dense sur les espaces compacts, il existe un J e
Z'('P) tel que sup" |J(z) - J'(z)|- < (c/3)-. Comme p(ñ) = 1 par
hypothèse, on a p (J',J)< c/3. Donc p(g, J) p,{g, /i)
+ pp(h, J') +
p({',}) <z/3 + i3 + 3 = c g
Ainsi, flj.,F'(Ai*( )) peut être approché uniformément par
Preuve du corollaire 2.3
des éléments de ZH*(T). Q
Notons que [0, 1]' est compact et appliquons le corollaire 2.2.
La preuve du théorème 2.4 fait appel aux trois lemmes
suivants.
Lemma A.3. Pour toute fonction d'écrasement V, tout e > 0, et DeC0£0bBry 2.4
pour tout M > 0, il existe une fonction cos," , e Z'(T) telle que L'i t - ui"{p(z):p( ) > 0}. Pour tout e < s, on a que p (J, g)
- implique ^l-:|/(-) - 8(- c} = 0. En faisant appel au
)l termine la preuve.
théorème 2.4
Preuve
Soit F l'équarrissage en cosinus de Gallant et White (1988) (l'équarrissage en cosinus de Gallant et White (1988)).
Corotlaire 2.5
troisième exemple d'écrasement de fonctions dans la section 2). Mettez la masse 1/2' sur chaque point dans (0, 1}' et appliquez
En ajoutant, soustrayant et mettant à l'échelle un nombre fini de le corollaire 2.4.0
versions affinement décalées de F, nous pouvons obtenir la
fonction cosinus sur n'importe quel intervalle ( - 3f, + M].
Le résultat découle maintenant du lemme A.2 et du triangle Preuve du théorème 2.5
ineoualitr.
Ce théorème comporte deux étapes. Tout d'abord, sa validité est
démontrée - Lemma A. 4. Soit g() = Z;°., #, cos(A,(-)), A ; - A'. Pour arbitraq strafed lorsque {zt, ...z.} C B', alors le résultat est
étendu à fi'. fonction d'écrasement V, pour un compact arbitraire K C 2t', et pour un compact arbitraire K C 2t'.
arbitraire e > 0, il existe un J - Z'(T) tel que sup" |g(z) - Etape 1 : Supposons que (z" ...,z,} C fi' et, si nécessaire,
réétiquetons,
f(-)1 < -. que z, < zt < ... < z.- t < z,. Choisir If > 0 tel que V(- 3f) I -
T(3f) = 0. Définir A comme la fonction affine constante A
PFOO( @,et fixer $t = g(zi). Fixer J'(z) = 9-, T(At(z)). Puisque
J'(z)
g(zt) on a J'(z,) = g(z,). Définir inductivement A,par A'(x , )
Choisir 3f > 0 tel que pour y E (1, . Q} At[K 1 C [-
3f, + flf]. Comme 9 est fini, K est compact et les X(-) sont Fixer J'(z) = Z*., ;T(ni(z)). Pour i m k J'(z,) = g(z ;). J- est
continus, la
un tel M peut être trouvé. Soit @' Par le la fonction souhaitée.
= @- lemme A. 3
pour tout z C X, nous avons|Z,'. , ;cosy "p'(A,(z)) - g(z)| < t.
Parce que Étape 2 : Supposons que (zi, . . . ,z,} C B' où r * 2. Choisir
cosy. "p- e Z'(Y), on voit que J(-) = Z,°., cos.q "p.(A ;(-)) e p C B' tel que si iI jalors p- (z, - z,)1 0. Ceci peut être fait
puisque U" ;(q:q- (z, - z,) = 0} est une union finie d'hyperplans
dans B*. En réétiquetant, si nécessaire, on peut supposer
Lcmma A.S. Pour toute fonction d'écrasement V ¥ '(T) est que p- xi < p- z, <
uniformément dense sur les compacts dans C'. - < p- x . Comme dans la première étape, trouver ;'s et A,'z
tels que
#/FOOf

Par le théorème 2.1, les polynômes trigonométriques est la fonction souhaitée. Q


(Z;'.,$,fI , cos [A,'(-)1 : Q, 1, - N, §, H R, A, G ñ'j sont
uniformément denses sur les espaces compacts de C'.
L'application répétée de l'identité trigonométrique (cos a)- Preuve du corollaire 2.6
(cos b) = cos(a + b) - cos(a - b)permet de réécrire En utilisant les vecteurs § ; qui sont 0 sauf à la ième
tout polynôme trigonométrique de la forme Z'., n,cos(A,(-)) où a, E position, nous pouvons approximer chaque g, à l'ancienne près.
B et A, C- A'. Le résultat découle maintenant du lemme L'addition de 6 approximations nous maintient dans les
A.4. classes Zfl"' et Z''. Q
La preuve du Corollaire 2.T u>c> le iemma suivant.

Preuve du théorème 2.4 Lemma A.d. Soit r (resp. G) une classe de fonctions de B à A
(resp. A' à A) qui est uniformément dense sur les espaces
Par le lemme A.5, 2'('P) est uniformément dense sur les compacts dans C' (resp. C'). La classe des fonctions G - F --
compacts dans C'. Ainsi, le lemme 2.2 implique que Z'(T) est (f - g : g - G et e r j est uniformément dense sur les espaces
p -dense dans C". L'inégalité triangulaire et le lemme A.1 compacts de C'.
impliquent que Z'(T) est p -dense dans ñf'.

Preuve de la coronarographie 2.1 On choisit un /i C C' arbitraire, un sous-ensemble compact R de


Fixer s > 0. Par le théorème de Lusin (Halmos, 1974, p. 242- A', et e 0. Il faut montrer l'existence d'un / C- r et d'un g
243), il existe un ensemble compact x tel que y(x')> 1 - e/2 et E G tels que sup "r|/(g(z)) - h(x1\N < z.
g|K' (g restreinte à K'j est continue sur K'. Par le théorème Par hypothèse, il existe un g C G tel que sup" |g(z)
d'extension de Tietze (Dugundji, 1966, Théorème 5.1) il - h[x1 < c/2. Puisque K est compact et que h est continue
existe une fonction continue g' (h{x1 : x e X}est compacte.Donc(g(x):z E K §est bornée. Soit S la
G C'tel que g'|x' = g|R'et sup" -g'(z) = sup,g i g|X'(z). nécessaire
Par le lemme A.5, ¥'(Y) est uniformément dense sur les t/2. Prendre J e ¥'('P)tel que sa c pact
compacts dans C'. Choisir un compact K' tel que p(ñ') > 1 - ri o closure
ly m of {g(z)
: z e K j.
Par hypothèse, il existe un / C F tel que sup, --l/ (s)-
s<
que sup" i|J(z) - g'(z)| < e. Alors sup,erin,r| J(z) - g(z)| < c s/2. Nous voyons que / - g est la fonction souhaitée, car
et p(K' O K') > 1 - e. O sup,--l/(8(-))'(-)| sup.e-|/(g(-)) 8(-) * 8(-) (-)l
sup-e |J(8(z)) - 8(z)| + sup---l8(-) h[x)
Preuve du corollaire 2.2
< c/2 + t/2 = z.
On choisit arbitrairement g e L et arbitrairement t > 0. Il
faut montrer l'existence d'une fonction J E Z'(Y) telle
que p,(J, g) < s. Preuve du corollaire 2.7
Il découle des théorèmes standard (Halmos, 1974, Nous ne considérons
s'applique Cor- que le cas où s -- I. Lorsque s * 2
Théorèmes 55.C et 55.D) que pour toute fonction bornée /i e
L.il y a
< vontinu'Jus / sucn tnat J') < s/3. Pour des valeurs suffisamment grandes de
Si C It, en mettant h -- glut p, on obtient p g, h1 < e/3. Puisque ollaire 2.6. Il suffit de montrer que pour tout k la classe de
Z'('P)
36b K. Hornik, M. Stinchcombe et H. White

fonctions fonctions de plusieurs variables par superposition de


fonctions continues d'une variable et addition. Doklady
Akademii Nauk SSR, 114, 953-956.
Kolmogorov, A. N., & Tihomirov, V. M. (1961). e-entropie et
e-capacité des ensembles dans les espaces fonctionnels.
American Mathematical Society Translations, 2(17), 277-364.
Lapedes, A. et Farber, R. (1988). How neural networks
est uniformément dense sur les compacts dans C'. work (Tech. Rep. LA-UR-88-418). Los Alamos, NM :
Le lemme A.5 prouve que cela est vrai lorsque k -- 1. Induction Laboratoire national de Los Alamos.
sur le Cun, Y. (1987). 3'fode/es connexionistes de l'apprentissage. These
k complétera la preuve.
de Doctorat, Université Pierre et Marie Curre.
Supposons que / est uniformément dense sur les compacts
de C'. Nous devons montrer que / ., est uniformément dense Lorentz, G. G. (1976). Le treizième problème de Hilbert. Dans
sur les espaces compacts de C', Ji,, = (Z, ,W[A,(g,[x)1) : g, E /,). F.
Le lemme A.5 dit que la classe des fonc- tions (Z, ,'i [A,(-)1 E. Broader (Ed.), Proceedings of Symposia in Pure Mathe-
j est uniformément dense sur les espaces compacts de C'. matics (Vol. 28, pp. 419-430). Providence, RI : American
Lemma Mathematical Society.
A.6 et l'hypothèse d'induction complètent la preuve. Q Maxwell, T., Giles, G. L. , Lee, Y. C., & Chen, H. H. (1986).
Nonlinear dynamics of artificial neural systems. In J. Denker
(Ed.), Neural networks for computing. New York : American
Institut de physique .
RÉFÉRENCES Minsky, M. et Papert, S. (1969). Perceptrons. Cambridge :
MIT Press.
Billingsley, P. (1979). Probabilité et mesure. New York :
Wiley. Urh--n-, C.(woo). Nypruximaiion of superpositions Rudin, W. (1964). Printiples of mathematical analysis (Principes
of a sig- moidal function (Tech. Rep. No. 856). Urbana, IL : de l'analyse mathématique). New York : McGraw-Hill.
Severini, J. A. et Wong, W. H. (1987). Convergence rates of
University maximum likelihood and relaced estimates in general parameter
of Illinois Urbana-Champaign Department of Electrical and spaces (document de travail). Chicago, IL : Département
Computer Engineering (Département d'ingénierie
des statistiques de l'Université de Chicago.
électrique et informatique).
Stinchcombe, M. et White, H. (1989). Universal
Dugundji, J. (1966). Topologie. Boston : Allyn and Bacon, Inc.
approximation using feedforward networks with non-
Gallant, A. R. et White, H. (1988). There exists a neural network sigmoid hidden layer activation functions. In Proceedings
that does not make avoidable mistables. In IEEE Second of the International Joint Conference on Neural Networks (pp.
In- ternational Conference on Neural Networks (pp. I:657- I:613-618). San Diego : SOS Printing.
664). San Diego : SOS Printing. White, H. (1988a). The case for conceptual and operational sep-
Grenander, U. (1981). Abstract inference. New York : Wiley. aration of network architectures and learnin8 =-
Halmos, P. R. (1974). 3fe' ure theory. New York : Springer-Ver-
Chdf1isms (Discussion Paper 88-21). San Diego, CA :
lag.
Department of Ec- onomics, University of California, San
Hecht-Nielsen, R. (1987). Kolmogorov's mapping neural
Diego.
net- work existence theorem. In IEEE First International
White, H. (1988b). Multilayer feedforward networks can learn
Confer- ence on Neural Nenvorki (pp. III:11-14). San Diego
les mappings arbitraires : Connectionist nonparametric
: SOS Printing. regression with automatic and semi-automatic
Hecht-Nielsen, R. (1989). Theory of the back propagation neural determination of network complexity (Discussion Paper).
network. In Proceedings of the International Joint Conference San Diego, CA : Département d'économie, Université de
on Neural Networks (pp. I:593-608). San Diego : SOS Californie. San Diego.
Printing. White, H. et Wooldridge, J. M. (sous presse). Some results for
Hornik, K., Stinchcombe, M. et White, H. (1988). Multilayer sieve estimation with dependent observations. In W.
feedforward networks are universal approximators (Discussion Barnett. I owcM, d. O. Taucnen tlzas.), Nonparameiric
Paper 88-45). San Diego, CA : Department of Economics, Uni- and semi-para- metric methods in econometrics and statistics.
versity of California, San Diego. New York : Cam- bridge University Press.
Première conférence internationale de l'IEEE sur les réseaux Williams, R. J. (1986). La logique des fonctions d'activation.
neuronaux (1987).
Dans D.
M. Caudill et C. Butler (Eds.). San Dieeo : SOS Print'n8
free e<cond International Conference on Neural Networks (1988). E. Rumelhart & J. L. McClelland (Eds.), Parallel
distributed processing : Explorations in the microsiructures of
San Diego : SOS Printing. cognition (Vol. 1, pp. 423-443). Cambridge : MIT Press.
Irie, B. et Miyake, S. (1988). Capabilities of three layer
percep- trons. In i£e£ Second International Conference on
Neural Networks (pp. I:64l-648). San Diego : SOS
Printing.
Kolmogorov, A. N. (1957). On the representation of
continuous

Vous aimerez peut-être aussi