Vous êtes sur la page 1sur 300

CLIN ENCHESCU

CALCULUL NEURONAL

















2008



2





3
CUPRINS
Introducere ........................................................................................................... 7
I. Elemente generale de Inteligen Artificial ...................................................... 11
I.1. Sisteme de Inteligen Artificial ..................................................................................................... 11
I.2. Calculul neuronal n cadrul AI ......................................................................................................... 15
I.3. Ce este calculul neuronal? ................................................................................................................ 16
I.4. Istoric al dezvoltrii calculului neuronal .......................................................................................... 16
I.5. Concluzii .......................................................................................................................................... 18
II Noiuni generale ............................................................................................. 21
II.1. Elemente de baz ale calculului neuronal ....................................................................................... 21
II.1.1. Neuronul biologic ................................................................................................................. 21
II.1.2. Neuronul artificial ................................................................................................................ 23
II.1.3. Diferene ntre neuronul biologic i neuronul artificial ........................................................ 25
II.2. Reele neuronale artificiale ............................................................................................................. 25
II.3. Modul de operare al reelelor neuronale ......................................................................................... 27
II.4. Taxonomia reelelor neuronale ....................................................................................................... 28
II.5. Calculul neuronal versus Inteligena Artificial i calculul algoritmic ........................................... 30
II.5.1. Programare versus nvare .................................................................................................. 31
II.5.2. Memorii asociative distributive ............................................................................................ 31
II.5.3. Tolerana la deteriorri ......................................................................................................... 32
II.5.4. Recunoaterea formelor (Pattern Recognition) ..................................................................... 32
II.5.5. Sintez .................................................................................................................................. 32
II.5.6. Calculul neuronal versus calculul algoritmic ........................................................................ 33
II.6. Domenii de utilizare ale reelelor neuronale ................................................................................... 34
II.6.1. Procesarea limbajului ........................................................................................................... 34
II.6.2. Comprimarea datelor ............................................................................................................ 36
II.6.3. Recunoaterea caracterelor ................................................................................................... 36
II.6.4. Probleme combinatoriale ...................................................................................................... 37
II.6.5. Recunoaterea formelor ........................................................................................................ 37
II.6.6. Prelucrarea semnalelor ......................................................................................................... 38
II.6.7. Modelare economic i financiar ........................................................................................ 39
II.6.8. Servo-control ........................................................................................................................ 39
II.6.9. Teoria aproximrii ................................................................................................................ 40
II.7. Clasificare ....................................................................................................................................... 40
II.8. Tehnologii implicate n dezvoltarea calculului neuronal ................................................................ 43
II.8.1. Simulatoare software ............................................................................................................ 43
II.8.2. Acceleratoare hardware ........................................................................................................ 44
II.8.3. Procesoare neuronale ............................................................................................................ 44
II.8.4. Procesoare optice .................................................................................................................. 45
III. Procesul de nvare ...................................................................................... 47
III.1. Noiuni generale ............................................................................................................................ 47
III.2. Algoritmi de nvare..................................................................................................................... 48
III.2.1. nvare pe baza minimizrii unei funcii eroare ................................................................. 48
III.2.2. nvare Hebbian ............................................................................................................... 50
III.2.3. nvare competitiv ............................................................................................................ 51
III.2.4. nvare Boltzmann ............................................................................................................. 52
III.3. Paradigme de nvare ................................................................................................................... 54
III.3.1. nvare supervizat............................................................................................................. 54
III.3.2. nvare nesupervizat ......................................................................................................... 55
III.3.3. nvare ntrit (reinforcement) ......................................................................................... 56
III.4. Natura statistic a procesului de nvare ...................................................................................... 57
III.4.1. Generaliti .......................................................................................................................... 57
III.4.2. Contradicia dintre varian i bias ...................................................................................... 61
III.4.3. Modelul general al procesului de nvare ........................................................................... 62
III.4.4. Capacitatea de generalizare ................................................................................................. 68
4
IV. Perceptroni ................................................................................................... 75
IV.1. Perceptronul simplu ...................................................................................................................... 75
IV.1.1. Modul de operare al PS ....................................................................................................... 75
IV.1.2. PS cu funcie de activare f(x) = sgn(x) ................................................................................ 76
IV.1.3. PS cu funcie de activare liniar .......................................................................................... 81
IV.1.4. PS cu funcie de activare neliniar ...................................................................................... 83
IV.1.5. PS stohastic ......................................................................................................................... 85
IV.1.6. Capacitatea de memorare a PS ............................................................................................ 89
IV.1.7. Interpretarea geometric a PS ............................................................................................. 91
IV.2. Perceptronul multistrat (PMS) ...................................................................................................... 94
IV.2.1. Legea de nvare BP .......................................................................................................... 94
IV.2.2. Variante ale legii de nvare BP pentru PMS ..................................................................... 97
IV.2.3. Interpretarea geometric a PMS ........................................................................................ 104
V. nvarea activ ............................................................................................ 109
V.1. Introducere.................................................................................................................................... 109
V.2. Un cadru general pentru aproximarea activ ................................................................................ 109
V.2.1. Preliminarii ......................................................................................................................... 109
V.2.2. Algoritmi de alegere a exemplelor ..................................................................................... 111
V.3. nvare activ. Aproximarea funciilor continue monoton cresctoare i mrginite ................... 114
V.3.1. Limita inferioar pentru nvarea pasiv ........................................................................... 115
V.3.2. Algoritmul nvrii active (AIA) ....................................................................................... 116
V.3.3. Simulri experimentale i alte investigaii.......................................................................... 121
V.4. nvare activ. Aproximarea funciilor derivabile cu derivata mrginit .................................... 122
V.4.1. Limita inferioar a numrului de exemple ......................................................................... 123
V.4.2. Obinerea unei strategii optimale de alegere a exemplelor ................................................. 125
V.4.3. Algoritmul de nvare activ (AIA) .................................................................................. 128
V.4.4. Distribuia exemplelor selectate ......................................................................................... 129
VI. nvarea nesupervizat .............................................................................. 131
VI.1. Generaliti .................................................................................................................................. 131
VI.2. Invarea nesupervizat Hebbian simpl ................................................................................... 133
VI.2.1. Modelul liniar simplu ........................................................................................................ 133
VI.2.2. Regula lui Oja ................................................................................................................... 135
VI.2.3. Alte reguli de nvare nesupervizat ................................................................................ 139
VI.3. Analiza componentei principale .................................................................................................. 139
VI.3.1. PCA - Analiza Componentei Principale aplicat la PS ..................................................... 141
VI.4. Hri de trsturi (feature detection) ........................................................................................... 144
VI.5. nvarea nesupervizat competitiv ........................................................................................... 150
VI.5.1. Generaliti ........................................................................................................................ 150
VI.5.2. Invarea competitiv ........................................................................................................ 151
VI.5.3. Studiul convergenei ......................................................................................................... 155
VI.6. Aplicaii ale nvrii nesupervizate ............................................................................................ 157
VI.6.1. Scheme auto-organizabile ................................................................................................. 157
VI.6.2. Hri de trsturi (feature mapping) .................................................................................. 167
VII. Proprietatea de aproximant universal a reelelor neuronale .................... 173
VII.1. Teorema lui Kolmogorov i perceptronul multistrat .................................................................. 173
VII.1.1. Preliminarii ...................................................................................................................... 173
VII.1.2. Teorema fundamental .................................................................................................... 174
VII.1.3. Demonstraii .................................................................................................................... 175
VII.2.Teorema lui Stone-Weierstrass i perceptronul multistrat .......................................................... 180
VII.2.1. Introducere ....................................................................................................................... 180
VII.2.2. Notaii i definiii ............................................................................................................. 180
VII.2.3. Teoreme fundamentale i demonstraii ............................................................................ 183
VII.3. Aplicaii ale teoremei lui Stone-Weierstrass la reele neuronale ............................................... 185
VII.3.1. Introducere ....................................................................................................................... 185
VII.3.2. Exemple de reele neuronale ce satisfac teorema lui Stone-Weierstrass .......................... 185
VII.4. Proprieti fundamentale de aproximare ale reelelor neuronale................................................ 190
VII.4.1. Noiuni introductive ......................................................................................................... 190
VII.4.2. Enunuri i rezultate ......................................................................................................... 191
5
VII.4.3. PMS pentru aproximarea unei funcii i a derivatelor sale .............................................. 193
VII.5. Limitele aplicrii n practic a proprietilor reelelor neuronale............................................... 202
VII.5.1. Echivalena polinomial .................................................................................................. 202
VII.5.2. Influena procesului de nvare ....................................................................................... 204
VIII. Reelele neuronale ca i metode de aproximare -interpolare....................... 207
VIII.1. Problema aproximrii ............................................................................................................... 208
VIII.1.1. Metode de aproximare globale ....................................................................................... 208
VIII.1.2. Metode de aproximare locale ......................................................................................... 209
VIII.1.3. Caracterizarea metodelor de aproximare ........................................................................ 210
VIII.2. Aproximarea funciilor netede .................................................................................................. 211
VIII.2.1. Alegerea reelei neuronale aproximante ......................................................................... 212
VIII.2.2. Influena numrului de date de antrenament .................................................................. 212
VIII.2.3. Reele neuronale i teoria regularizrii ........................................................................... 213
VIII.3. Proprietatea de cea mai bun aproximant ............................................................................... 234
VIII.3.1. Aplicaia 1: Reele neuronale de tip BP (Back Propagation) .......................................... 237
VIII.3.2. Aplicaia 2: Reele neuronale de regularizare ................................................................. 238
IX. Aplicaiile teoriei regularizrii la reelele neuronale ..................................... 241
IX.1. Reele neuronale de tip PMSR ..................................................................................................... 241
IX.1.1. Construcia reelei neuronale de tip PMSR ....................................................................... 241
IX.1.2. Reducerea dimensionalitii reelei neuronale PMSR ....................................................... 243
IX.2. Proprietile reelelor neuronale de tip PMSR ............................................................................. 261
X. Studiul aplicativ a performanelor calculului neuronal .................................. 265
X.1. Modul practic de construcie a reelei neuronale .......................................................................... 265
X.2. Studiul comparativ dintre reelele neuronale i metodele clasice de aproximare interpolare ....... 268
XI. Concluzii ..................................................................................................... 285
XI.1. Concluzii generale ....................................................................................................................... 285
XI.2. Perspective .................................................................................................................................. 289
XII. Bibliografie ............................................................................................... 291


6

7
Introducere



Creierul uman, ntr-o analogie cu un calculator, este un sistem de procesare a
informaiilor caracterizat prin complexitate, neliniaritate i paralelism. Creierul uman are
capacitatea de a-i organiza activitatea neuronal n aa fel nct s realizeze activiti
complexe (recunoaterea formelor, percepie, control motric etc.) mult mai rapid i mai
performant dect cel mai puternic super - calculator construit vreodat de om [9]. Dac ar fi s
analizm doar vzul uman [105] acesta poate fi asimilat ca un proces de prelucrare
informaional: funcia sistemului vizual uman este de a oferi o reprezentare a mediului
nconjurtor i de a oferi informaia necesar pentru a interaciona cu acest mediu nconjurtor
[169]. Creierul reuete ca n aproximativ 100-200 ms. s rezolve o problem complex ca
aceea a recunoaterii unei persoane, pe cnd un sistem de calcul necesit mult mai mult timp
pentru sarcini mult mai simple.
La natere, creierul omului deja are o structur complex, dar ce este mai important, are
capacitatea de a-i "defini" propriile "reguli" prin ceea ce este denumit ca fiind "experien"
i "nvare". Aceast experien este construit n ani i ani de zile, cea mai puternic
dezvoltare avnd loc n primii doi ani de via, cnd aproximativ 1 milion de sinapse sunt
formate n fiecare secund.
Cum funcioneaz creierul uman? Rspunsul la aceast ntrebare este departe de a fi
cunoscut. Totui, s-a reuit ca n ultima perioad de timp, s se fac progrese nsemnate n
descifrarea modului de funcionare a sistemului neuronal. O contribuie nsemnat au avut-o
progresele aprute n neuro-fiziologie, care au nsemnat un mare pas nainte n explicarea
fenomenelor neurologice. ncercarea de a modela structura i modul de funcionare al
creierului uman au pus bazele unei noi discipline numit "calcul neuronal".
"Calculul neuronal" este o disciplin complex care folosete cunotine din numeroase
alte discipline tradiionale: biologie, neurologie, anatomie, chimie, fizic, matematic,
informatic etc. De aceea, studiul calculului neuronal trebuie s se bazeze pe abordri
complexe care s confere un cadru teoretic i aplicativ riguros, care s-l transforme ntr-o
disciplin matur, cu un aparat tiinific bine pus la punct. De aceea, n aceast carte, vom
ncerca s contribuim la studiul calculului neuronal printr-o analiz din punct de vedere
matematic. Ideea de baz o va reprezenta faptul c o reea neuronal este o schem de
aproximare-interpolare. Din acest punct de vedere, vom putea folosi rezultatele consacrate ale
analizei numerice pentru un studiu teoretic i practic al calculului neuronal. De asemenea,
vom folosi elementele calculului neuronal pentru a mbuntii proprietile de aproximare ale
unor clase de funcii.
Analogia dintre o reea neuronal i o metod de aproximare se obine dac analizm
cu atenie procesul nvrii pe baza unor exemple. De fapt, vom arta n aceast carte, c o
reea neuronal nu este altceva dect o reprezentare particular a mai multor metode de
aproximare. n particular, o reea neuronal fr straturi ascunse (perceptron simplu)
corespunde metodelor liniare de aproximare, iar reelele neuronale cu unul sau mai multe
straturi ascunse corespund metodelor de aproximare polinomial. Din cele menionate pn
acum rezult cu claritate importana studiului procesului de nvare pe baza unor exemple,
ceea ce ne va permite s abordm tehnologia calculului neuronal prin prisma teoriei
aproximrii.
Procesul de nvare a reprezentat ntotdeauna problema central n ncercarea de a
nelege ce este "inteligena" i de a construi maini "inteligente". Este adevrat ns, c n
8
cadrul teoriei clasice a Inteligenei Artificiale, procesului de nvare nu i se acord o
importan prea mare. De aceea, muli ani, testul Turing [112] a reprezentat o unitate de
msur folosit de membrii comunitii Inteligenei Artificiale. De fapt, definiia dat noiunii
de "inteligen" n sensul lui Turing poate fi privit mai degrab ca o capacitate de a rezolva
probleme, de a demonstra teoreme, de a juca ah etc. n contrast cu aceast abordare simplist,
cercetrile din cadrul calculului neuronal in cont de complexitatea acestei probleme, precum
i de dificultatea de a ncerca s implementm chiar i o "frm" de inteligen folosind un
program ce ruleaz pe un sistem clasic de calcul.
O tentativ de a "construi" sisteme inteligente trebuie s se bazeze pe existena
competenei perceptuale, motrice i lingvistice. De aceea, folosind procesul de nvare ca un
nucleu al calculului neuronal, vom putea nelege i analiza modul de funcionare i de
construcie a unor sisteme "inteligente". Am amintit, i vom arta riguros acest lucru, c
procesul de nvare supervizat este echivalent cu aproximarea sau interpolarea unei funcii.
Cu alte cuvinte, teoria aproximrii poate juca un rol esenial n definirea unor noiuni deosebit
de abstracte i dificil de cuantificat din cadrul Inteligenei Artificiale. Dac o reea neuronal
este echivalent cu o schem de aproximare, este foarte important s se analizeze din aceast
prism proprietile sale: proprietatea de aproximant universal, proprietatea de cea mai buna
aproximant, cadrul general de aplicabilitate, performanele de aproximare. Vom face ns i
o definire riguroas a noiunii de "proces de nvare" pe care l-am folosit pn acum ca un
termen generic.
De asemenea, foarte important este comparaia dintre calculul algoritmic i cel
neuronal, comparaie care scoate n eviden urmtoarea concluzie: calculul algoritmic
necesit programare, adic stabilirea unui set de reguli care s caracterizeze a priori calculul
ce urmeaz a fi implementat pe calculator; reelele neuronale nva, "absorb" experiena,
modificndu-i structura intern n scopul efecturii aciunii dorite.
Cartea este structurat pe unsprezece capitole, care in cont de aspectele tratate i de
contribuiile aduse n acest domeniu.
Capitolul I conine o prezentare general a I nteligenei Artificiale. De asemenea, se
prezint calculul neuronal ca o component dominant i definitorie a I nteligenei
Artificiale. n acest context, se ncearc definirea noiunii de calcul neuronal, precum i un
studiu istoric al dezvoltrii calculului neuronal.
Capitolul I I , care are un caracter introductiv, conine tratarea unor subiecte generale:
elemente de baz ale calculului neuronal, ce l face s fie diferit de alte metode de calcul, la ce
poate fi utilizat, care sunt implicaiile tehnologice ale calcului neuronal, clasificarea reelelor
neuronale, domenii de utilizare, care este stadiul actual de dezvoltare al calculului neuronal.
n Capitolul I I I se trateaz riguros din punct de vedere matematic noiunea definitorie
a calculului neuronal i anume procesul de nvare. Se prezint principalii algoritmi de
nvare din calculul neuronal: nvarea ca un proces de optimizare a unei funcii eroare,
nvarea competitiv, nvarea Hebbiana i nvarea Boltzmann. De asemenea, sunt
prezentate i principalele paradigme de nvare: nvarea supervizat, nvarea
nesupervizat i nvarea ntrit (reinforcement). n acest capitol se face o analiz detaliat a
procesului de nvare prin prisma unui proces statistic. Aceast analiz statistic permite
definirea riguroas a procesului general de nvare, precum i definirea unei noiuni de mare
important n cadrul calculului neuronal, capacitatea de generalizarea unei reele neuronale.
n Capitolul I V se prezint elementele definitorii a unei reele neuronale cu propagare
direct a informaiilor i anume, perceptronul. n prima parte a acestui capitol se prezint cea
mai simpl reea neuronal numit perceptron simplu (un strat de intrare i un strat de ieire),
studiindu-se proprietile sale. Se trec n revist diferite tipuri de perceptroni simpli cu
9
diferite funcii de activare. n continuare, se trece la o arhitectur mai complex si anume la
perceptronul multistrat, care are n componena sa i straturi ascunse. De asemenea, se face o
analiz a legilor de nvare supervizat. Din aceast clas de algoritmi supervizai, algoritmul
de nvare Back Propagation este analizat din punct de vedere matematic, cu variantele sale
i cu anumite mbuntiri.
Capitolul V este dedicat unei metode de nvare supervizate, numit nvare activ.
Metoda prezentat este bazat pe o implicare activ a antrenorului n procesul de nvare,
acesta lund decizii legate de alegerea exemplelor de nvat. Sunt prezentate performanele
acestei metode de nvare ca un studiu al aproximrii funciilor continue monoton cresctoare
i a funciilor derivabile cu derivata mrginit.
Analiza proceselor de nvare nesupervizate se face n Capitolul VI . Acest capitol
conine cele mai importante trsturi ale nvrii nesupervizate i anume: nvarea Hebbian,
analiza componentelor principale, nvarea nesupervizat competitiv. Tot n acest capitol se
prezint i aplicaiile nvrii nesupervizate n cadrul schemelor auto-organizabile i ale
hrilor de trsturi.
Capitolul VI I cuprinde analiza proprietii de aproximant universala a reelelor neuronale. n
acest scop se folosete Teorema lui Kolmogorov, precum i Teorema lui Stone-Weierstrass.
Analiza din acest capitol stabilete condiiile pe care trebuie s le satisfac o reea neuronal
pentru a satisface proprietatea de aproximant universal. Se analizeaz cele mai
reprezentative exemple de reele neuronale. Analiza teoretic este ntrit de o analiz a
limitelor pe care le are implementarea practic a reelelor neuronale.
n Capitolul VI I I se analizeaz reelele neuronale ca i metode de aproximare. Se
definete problema aproximrii n contextul calcului neuronal. De asemenea, se prezint
aproximarea funciilor netede cu ajutorul reelelor neuronale. Folosind teoria regularizrii se
construiesc reele neuronale cu performane foarte bune de aproximare-interpolare.
Proprietatea de cea mai bun aproximant este luat n considerare n analiza unor clase
generale de reele neuronale.
Capitolul I X este dedicat aplicrii teoriei regularizrii n contextul construirii unor
reele neuronale folosite ca metode de aproximare. Se construiete reeaua neuronal de tip
PMSR (Perceptron MultiStrat de Regularizare) i se analizeaz proprietile pe care le are o
astfel de reea neuronal.
Capitolul X conine elemente de aplicare i implementare a reelelor neuronale de tip
PMSR (Perceptron MultiStrat de Regularizare) i se comparar performanele reelelor
neuronale ca i metode de aproximare, n raport cu metodele clasice: polinoame Lagrange,
Newton, Hermite i spline.
Concluziile, precum i perspectivele viitoare de cercetare din domeniul calculului
neuronal, sunt cuprinse n Capitolul XI .
Lista bibliografic cuprinztoare se gsete la sfritul crii.






10




11
I. Elemente generale de Inteligen Artificial


I.1. Sisteme de Inteligen Artificial

Scopul Inteligenei Artificiale (AI Artificial Intelligence) este de a dezvolta
algoritmi sau metode pentru sistemele de calcul, care s simuleze modul de gndire uman [8].
Evident, propoziia aceasta nu trebuie luat ca o definiie riguroas a conceptului de AI . Ceea
ce trebuie totui remarcat n aceast propoziie este utilizarea termenului de "gndire", i nu
de "inteligen", cu scopul de lrgi cmpul aplicaiilor care pot fi considerate ca aparinnd
AI , ca de exemplu percepia, prelucrri de limbaj etc.
Un sistem AI trebuie s fie capabil s efectueze 3 lucruri principale [93]:
1. memorare de cunotine;
2. aplicarea cunotinelor dobndite (memorate) pentru a rezolva probleme;
3. dobndirea de noi cunotine prin experien.
De asemenea, un sistem AI este constituit din trei componente:









Fig. 1.1.: Modelul unui sistem AI cu cele 3 componente ale sale.

S analizm fiecare dintre componentele unui astfel de sistem AI :
1. Reprezentare: Una dintre cele mai distincte trsturi ale unui sistem AI este posibilitatea
de a utiliza un limbaj constituit din simboluri, cu ajutorul crora se pot construi structuri
pentru a reprezenta 2 elemente:
- cunotine generale despre o problem de rezolvat;
- cunotine specifice despre soluia problemei de rezolvat;
Simbolurile trebuie descrise de obicei n termeni ct mai familiari, pentru a face
reprezentarea simbolic a unui sistem AI ct mai uor de neles de ctre un subiect uman.
De aceea, claritatea simbolisticii folosite de sistemele AI le face att de utile n cadrul
procesului de comunicaie om-main.
Reprezentare
Gndire
nvare

12
n terminologia AI , prin termenul de "cunotine" nelegem de fapt o alt form de
exprimare pentru noiunea de dat. Dar, dac privim din punct de vedere al unei
reprezentri declarative, cunotinele reprezint o mulime static de fapte, reunit cu o
mulime de proceduri generale de prelucrare i manipulare a faptelor. De fapt, trstura
caracteristic a reprezentrilor declarative o constituie faptul c aceste reprezentri conin
un neles intrinsec prin prisma unui utilizator uman, independent de utilizarea lor n
cadrul unui sistem AI. ntr-o reprezentare procedural, cunotinele sunt incluse ntr-un
cod executabil care acioneaz de fapt n afara nelesului acestor cunotine.
Ambele tipuri de cunotine, declarative i procedurale, sunt necesare pentru a putea
rezolva majoritatea problemelor.
2. Gndirea: n cea mai simpl definiie, putem spune despre gndire c reprezint abilitatea
de a rezolva probleme. Dar pentru ca un sistem s poat fi calificat ca un sistem dotat cu
gndire, acesta trebuie s satisfac anumite condiii [93]:
- sistemul trebuie s fie capabil s exprime i s rezolve o gam larg de probleme i de
tipuri de probleme;
- sistemul trebuie s fie capabil s extrag, din informaiile memorate, informaii
explicitei informaii implicite;
- sistemul trebuie s posede un mecanism de control care s determine, atunci cnd o
soluie a fost obinut, care operaie s fie aplicat unei probleme particulare, sau, cnd
trebuie oprit orice activitate relativ la problema de rezolvat.
Rezolvarea problemelor poate fi privit de fapt ca o problem de cutare (searching).
Conform cu [110], metoda clasic de a aborda o problem de cutare este de a folosi
reguli, datei control. Regulile acioneaz asupra datelor, iar controlul acioneaz asupra
regulilor. S considerm un exemplu clasic, problema comisionarului voiajor (traveling
salesman problem), care necesit determinarea celui mai scurt drum care trece prin fiecare
ora, dar drumul nu are voie s treac dect o dat printr-un ora. n aceast problem
datele sunt alctuite din toate oraele de vizitat, precum i din matricea distanelor dintre
aceste orae. Regulile reprezint modul de alegere a urmtorului ora de vizitat, iar
controlul constituie decizia de a aplica o regul sau alta, precum i momentul de aplicare al
acelei reguli.
n practic, de cele mai multe ori ns cunotinele disponibile sunt limitate (de exemplu n
diagnosticul medical), putnd fi incomplete sau inexacte. n astfel de situaii, se folosesc
proceduri de gndire probabilistice, permind astfel sistemelor AI s ia n considerare i
nedeterminarea.
3. nvarea: Procesul de nvare poate fi reprezentat grafic prin intermediul schemei din
Fig.1.2. Dup cum se vede din schem, mediul nconjurtor furnizeaz anumite informaii
elementului de nvare, care la rndul su utilizeaz aceast informaie pentru a mbogii
i mbuntii coninutul unei baze de cunotine, iar n final elementul de procesare
utilizeaz baza de cunotine pentru a efectua sarcina dorit.






13





Fig.1.2: Schema pentru reprezentarea procesului de nvare.

Informaia furnizat de mediul nconjurtor sistemului de nvare (maina) este n
general, imperfect, elementul de nvare netiind s umple golurile lsate de informaiile
lips, sau, s ignore elementele neeseniale. De aceea, maina lucreaz mai mult pe baza
deduciilor, ajustndu-i permanent comportamentul pe baza feedback-ului obinut de la
elementul de procesare.
nvarea se refer la dou tipuri de procesri de informaii:
- procesare informaional inductiv;
- procesare informaional deductiv.
n procesarea inductiv, regulile i formele generale sunt deduse pe baza unor date sau
experimente discrete. Pe de alt parte, n procesarea deductiv, regulile generale sunt utilizate
pentru a determina anumite fapte specifice. Ca un exemplu de nvare inductiv, putem
considera nvarea bazat pe similaritate, iar ca un exemplu de nvare deductiv procesul de
demonstrare a unei teoreme pe baza unor axiome sau teoreme existente. nvarea, avnd la
baz un proces explicativ, utilizeaz i nvarea inductiv i nvarea deductiv.
Importana bazelor de cunotine, precum i dificultile unui proces de nvare au
condus la dezvoltarea mai multor metode pentru a augmenta bazele de cunotine. Mai
concret, dac exist experi ntr-un anumit domeniu, este mult mai uor s beneficiem de
experiena lor ntr-o form compilat, dect de a duplica aceast experien. Aceasta
reprezint de fapt ideea ce se afl la baza sistemelor expert.
Pn n acest moment ne-am familiarizat doar cu elemente constitutive ale unor maini
AI simbolice. Ceea ce ne va interesa n continuare, este cum s comparm aceste sisteme
expert cu calculul neuronal, respectiv, reelele neuronale ca i nite modele cognitive? Pentru
a rspunde la aceast ntrebare ne vom folosi de modelul descris de [93], care presupune trei
nivele:
1. Nivelul explicativ. n cadrul AI clasic, efortul principal este concentrat pe construcia
reprezentrilor simbolice. De obicei, aceste reprezentri sunt discrete i arbitrare, de
exemplu proprieti abstracte, n locul unor imagini analogice. Din punct de vedere al
procesului cognitiv, este evident c nu ne putem pune problema unei reprezentri mentale,
modelarea procesului cognitiv fcndu-se pe baza unei procesri secveniale a
reprezentrilor simbolice.
n cadrul calculului neuronal, procesele cognitive sunt total diferite de cele din AI clasic.
Scopul calculului neuronal este de a construi modele paralele de procesare distribuit
(PDP - Parallel Distributed Processing). Aceste modele PDP presupun c procesarea
informaiei se face prin interaciunea unui numr mare de neuroni, fiecare neuron trimind
semnale excitatorii sau inhibitorii ctre ali neuroni ai reelei neuronale de care aparin
[174]. Mai mult chiar, reelele neuronale pun un mare pre pe explicarea neuro-biologic a
fenomenelor cognitive.
Mediul
nconjurtor
Element de
nvare
Baza de
cunotine
Element de
procesare
Feedback
14
2. Metoda de procesare. n AI clasic, modul de procesare este secvenial, ca la calculatoarele
clasice von Neumann. Chiar dac nu exist o ordine predeterminat, operaiile trebuie
efectuate n maniera pas-cu-pas. Acest mod de procesare secvenial are ca surs de
inspiraie natura secvenial a limbajului natural, trebuind s observm c AI tradiional s-a
nscut la puin timp dup maina von Neumann.
Pe de alt parte, procesarea paralel reprezint una din trsturile definitorii ale reelelor
neuronale. Paralelismul este esenial nu numai pentru modul de procesare al informaiilor
de ctre o reea neuronal, dar i sursa principal a flexibilitii lor. Paralelismul poate fi
masiv n cadrul reelelor neuronale (sute de mii de neuroni), ceea ce le confer acestora o
remarcabil robustee. Procesul de calcul, fiind distribuit relativ la un numr mare de
neuroni, deviaia calculelor generate de un numr mic de neuroni nu l afecteaz. Date de
intrare zgomotoase, deteriorate sau incomplete pot fi folosite totui de reeaua neuronal, o
reea neuronal parial deteriorat putnd funciona satisfctor, nvarea unei reele
neuronale netrebuind s fie perfect; performanele reelei neuronale se degradeaz
continuu i nu abrupt. Astfel, sistemele PDP aproximeaz flexibilitatea unui sistem
continuu, n contrast evident cu rigiditatea sistemelor AI tradiionale bazate pe simbolica
discret [175].
O alt trstur demn de menionat a paralelismului o reprezint faptul c cunotinele nu
sunt reprezentate prin expresii declarative, ci prin structura i nivelul de activare al reelei
neuronale. De aceea, coninutul necesar descrierii unei probleme nu reprezint altceva
dect nsi reeaua neuronal.
Calculul secvenial reprezint trstura fundamental a AI tradiional, n timp ce calculul
paralel caracterizeaz calculul neuronal.
3. Structura de reprezentare. Dup cum am vzut, AI tradiional are la baz reprezentarea
simbolic, care posed o structur cvasi lingvistic. Ca i expresiile limbajului natural,
expresiile din AI tradiional sunt n general complexe, fiind construite din simboluri simple
ntr-o manier sistematic. Cu ajutorul unei mulimi limitate de simboluri, noi expresii
pline de coninut pot fi construite pe baza analogiei dintre structurile semantice i
sintactice.
Natura i structura reprezentrii sunt o problem crucial a reelelor neuronale. Acest
subiect nu a fost pus nici un moment la ndoial de partizanii celor dou tabere ale AI
clasic i calculului neuronal. De fapt, s-au adus numeroase critici din acest punct de vedere
la adresa reelelor neuronale, cea mai competent critic [93] subliniind urmtoarele
avantaje n favoarea AI tradiional fa de calculul neuronal:
- reprezentrile mentale prezint n mod caracteristic o structur combinatorial i o
semantic combinatorial;
- procesele mentale sunt senzitive la structura combinatorial a reprezentrii asupra creia
opereaz.
ntr-o reea neuronal reprezentarea este distribuit. Totui, trebuie s subliniem faptul c
cele mai multe reele neuronale propuse, ca i candidai pentru reprezentarea structural
distribuit, au mai de grab un caracter ad-hoc; ele rezolv problema relativ la o clas
particular ntr-o manier ce nu permite o extindere simpl.
n concluzie, putem defini AI simbolic ca fiind manipularea formal a unui limbaj
algoritmic i reprezentarea datelor dup modelul top-down. Pe de alt parte, putem defini
reelele neuronale ca fiind procesoare simple distribuite ce posed o capacitate natural de a
nva, modul lor de operare fiind mai de grab de tip buttom-up. De aceea, pentru
implementarea unor aplicaii cu caracter cognitiv, cea mai bun soluie ar fi de a construi un
15
puternic model structural conexionist, care s mbine puterea ambelor direcii din AI : AI
tradiional i reelele neuronale.
Astfel, am fi n stare s combinm trsturile pozitive ale reelelor neuronale -
adaptivitate, robustee, uniformitate, cu cele ale AI simbolic - reprezentare, inferen i
universalitate. Un astfel de hibrid poate fi eficient dac reuim s stabilim cu precizie
domeniile de eficien a celor dou constituente:
- AI simbolic este mai eficient pentru procesarea limbajului, planificare sau gndire
explicit;
- reelele neuronale sunt mai eficiente n cadrul proceselor perceptuale, recunoaterea
formelor i memorie asociativ.

I .2. Calculul neuronal n cadrul AI

Calculul neuronal reprezint o alternativ viabil fa de metodele de calcul
tradiional, care timp de civa zeci de ani au dominat tiinele cognitive i domeniul AI , cu
toate c modelele matematice generate cu ajutorul calculului neuronal rmn nc
controversate.
Calculul neuronal se bazeaz pe o serie de modele matematice inspirate din neuro-
biologie, numite modele conexioniste sau reele neuronale. Reelele neuronale pot fi
caracterizate prin trei trsturi computaionale generale:
- straturi distincte de uniti de calcul interconectate;
- reguli recursive de modificare a "triei" conexiunilor dintre unitile de calcul;
- uniti de calcul simple i omogene.
Utiliznd doar aceste trei trsturi se pot construi i modela sisteme deosebit de
puternice i elegante, corespunztoare memoriei, percepiei, categorizrii, controlului motric,
recunoaterii formelor i chiar pentru gndirea uman.
n acest capitol vom ncerca s rspundem la ntrebrile:
- ce este calculul neuronal?
- ce l face s fie diferit de alte metode de calcul?
- la ce poate fi utilizat?
- care sunt implicaiile tehnologice ale calcului neuronal?
- cum s-a dezvoltat istoric calculul neuronal?
- care este stadiul actual de dezvoltare al calculului neuronal?
Pentru a rspunde la aceste ntrebri vom prezenta dou din cele mai importante
modele conexioniste care stau la baza calcului neuronal: perceptronul simplu i perceptronul
multistrat, mpreun cu elementele lor definitorii.


16
I .3. Ce este calculul neuronal?

Creierul uman este cel mai complex sistem de calcul. Capacitatea creierului uman de a
gndi, memora, de a rezolva probleme complexe au tentat n ultima perioad de timp un mare
numr de cercettori, n ncercarea de a modela modul su de operare. Aceste ncercri de a
crea un sistem de calcul care s cuprind trsturile fundamentale ale creierului uman, au
generat o nou direcie de cercetare, care poate fi numit pe scurt calcul neuronal.
Oricine poate sesiza faptul c creierul uman este de departe superior oricrui
calculator digital, aproape n orice domeniu. Un exemplu elocvent: un copil de 1 an de zile
este mult mai rapid i mai precis n recunoaterea obiectelor i a persoanelor dect cel mai
avansat sistem de inteligen artificial, rulnd pe cel mai puternic supercalculator.
Creierul uman are numeroase trsturi care s-au dorit a fi modelate cu ajutorul unor
sisteme de calcul artificiale [54]:
- este robust i tolerant la deteriorri; celulele nervoase din creier mor zilnic fr a afecta
performanele sale;
- este flexibil, putndu-se adapta la un nou mediu prin "nvare", pentru aceasta nu trebuie
s fie programat ntr-un limbaj de programare (Pascal, C, Fortran, Lisp etc.);
- poate prelucra informaii incomplete, inconsistente, probabilistice;
- este un sistem cu un nalt grad de paralelism;
- este de dimensiuni mici, compact, disipnd o foarte mic cantitate de energie.
Doar n activiti de calcul bazate pe operaii algebrice putem spune c un sistem de
calcul electronic (un computer) depete performanele creierului uman.
Trsturile de mai sus ale creierului uman constituie o motivaie real pentru
necesitatea studiului calculului neuronal. Calculul neuronal, aa cum am mai precizat,
reprezint o alternativ viabil la metodele de calcul tradiional, bazate pe programarea unei
secvene de instruciuni, indiferent dac modul de procesare este serial sau paralel [99].
Calculul secvenial a fost introdus de von Neumann [201], constituind baza tuturor
echipamentelor de calcul existente astzi. Calculul neuronal are ca surs de inspiraie
cunotinele acumulate de tiinele neurologice, cu toate c nu ntotdeauna elementele folosite
sunt plauzibile din punct de vedere biologic. n aceast carte dorim s prezentm un nou
model de calcul, neglijnd pn la o limit plauzibilitatea biologic, noi fiind interesai de alte
trsturi ale modelului de calcul neuronal.

I .4. I storic al dezvoltrii calculului neuronal

Putem considera anul 1943, momentul de natere a calculului neuronal cnd
microbiologistul W. McCullogh i matematicianul W. Pitts, public lucrarea fundamental "A
Logical Calculus of Ideas Immanent in Nervous Activity" [138]. Modelul de neuron artificial
aparine acestor cercettori. Aceast lucrare a constituit punctul de pornire a trei domenii de
cercetare:
- Calculatoare digitale. John von Neumann a caracterizat aceast lucrare ca o schem
funcional a unui creier electronic.
17
- Inteligen Artificial. Marvin Minsky, unul din cei mai importani cercettori ai
domeniului Inteligenei Artificiale, a fost inspirat de ideea inteligenei macroscopice
coninut n lucrarea de referin [144], ducnd la dezvoltarea primelor sisteme expert.
- Calcul neuronal. Un mare numr de cercettori, ncepnd cu F. Rosenblatt, au dezvoltat
bazele acestui model de calcul, avnd la baz o arhitectur inspirat de modelele
neurologice biologice, reelele neuronale.
Urmtorii 50 de ani de la lucrarea lui McCullogh i Pitts cunosc un efort considerabil
n domeniul cercetrii logicii discrete i a modului de operare al reelelor neuronale. Reelele
neuronale au fost concepute ca sisteme universale de calcul, existnd o analogie cu mainile
cu stri finite [144].
La extremitatea opus logicii discrete, au fost dezvoltate o serie de cercetri avnd la
baz aspectul continuu. Cunoscut sub numele de neuro-dinamic sau teoria cmpului
neuronal, aceste teorii utilizeaz ecuaii difereniale pentru a descrie activitatea nervoas
cerebral [3], [18], [164], [208], [210].
Aproximativ n jurul anului 1960, ntlnim unul din momentele de vrf ale cercetrii
calculului neuronal, prin activitatea desfurat de un grup de cercettori condui de F.
Rosenblatt. elul activitii lor l-a reprezentat problema determinrii prin nvare a triilor
sinaptice, relativ la o problem dat. Pentru aceasta au construit modelul de reea neuronal
numit Perceptron, constituit din neuroni grupai pe straturi succesive, cu o propagare direct a
informaiei, de la stratul de intrare ctre stratul de ieire. Perceptronul prezint o mare
importan, nu numai din punct de vedere istoric, ci i prin prisma faptului c din perceptron
au evoluat aproape toate celelalte modele de reele neuronale. De asemenea, perceptronul este
unica reea neuronal pentru care s-a reuit demonstrarea convergenei unei legi de nvare.
Din momentul n care s-a cunoscut teorema de convergen, calculul neuronal a cptat un
statut de cercetare aparte, o armat ntreag de cercettori dedicndu-i-se i fiindu-i alocate
importante resurse financiare. Entuziasmul nu a durat prea mult deoarece s-a neles c
teorema de convergen a legii de nvare a perceptronului simplu (perceptron cu un singur
strat) are un caracter limitat. Acest lucru a fost pus n eviden de M. Minsky i S. Papert, n
cartea lor Perceptrons [145].
Cam n aceeai perioad, modele simple de reele neuronale au fost construite de
cercettorii Widrow i Hoff [207], model numit Adaline(Adaptive Linear Neuron), iar mai
trziu Madaline (Multiple Adaptive Linear Neuron). Aceste reele neuronale reprezentau
implementarea cu ajutorul calculului neuronal a unei clase de funcii liniare adaptive.
M. Minsky i S. Papert au artat folosind argumente geometrice, c un perceptron
simplu este capabil s reprezinte doar probleme pentru care spaiul datelor de intrare este
liniar separabil. Celebrul exemplu XOR (SAU EXCLUSI V), problem care nu poate fi
rezolvat cu un perceptron simplu, aparine celor doi cercettori.
Era clar c perceptronul simplu are o capacitate de reprezentare limitat la clasa
funciilor liniar separabile. Limitarea putea fi nlturat prin adugarea de straturi ascunse la
topologia perceptronului simplu, obinndu-se perceptronul multistrat (multylayered
perceptron). Din pcate, n acea perioad nu s-a putut descoperi o lege de nvare pentru
perceptronul multistrat. M. Minsky i S. Papert chiar i-au manifestat ndoiala c o astfel de
lege de nvare ar exista, propunnd abandonarea calculului neuronal n favoarea altor
metode ale Inteligenei Artificiale. A urmat o perioad de aproape 20 de ani, n care doar
civa cercettori temerari au continuat s mai lucreze n acest domeniu. Tema major
abordat de acetia o reprezint cercetrile legate de memoriile asociative, bazate pe
corespondena dintre vectorii de intrare, cnd acetia au un grad suficient de mic de
similaritate. De fapt, acest subiect al memoriilor asociative fusese abordat mai nainte de
18
Taylor [192] i Steinbuch [187], Anderson [7], Willshaw [209], Marr [133], Kohonen [114]
[115]. Grossberg [87] redefinete problema general a nvrii ntr-o reea neuronal.
O alt direcie de dezvoltare este datorat lui Cragg i Temperlay [36], care au
reformulat modelul McCullogh-Pitts ca un sistem de spin magnetic, dup modelul fizic. n
acest model s-a considerat c memoria const din histerezisul formei domeniului ateptat la
un astfel de sistem. Caianiello [29] construiete o teorie statistic, folosind idei ale mecanicii
statistice. Aceleai preocupri le regsim la Little [129] i la Hopfield [101].
Lui Hopfield i se datoreaz conceptul foarte important de funcie energetic ataat
reelei neuronale i cea de memorie privit prin prisma unor atractori dinamici stabili [100].
Hinton i Sejnowski [98], Peretto [156] dezvolt ideea de neuron stohastic care se
comport aproximativ ca un neuron McCullogh-Pitts, n funcie de o anumit probabilitate
analog temperaturii fizice din mecanica statistic.
Amit [4] dezvolt teoria sistemelor magnetice aleatoare, numite spin glasses, care
constituie preludiul implicrii puternice a mecanicii statistice n domeniul calculului neuronal.
Totui, cel mai important moment al dezvoltrii calcului neuronal l reprezint
momentul descoperirii unei legi de nvare pentru perceptronul multistrat, lege de nvare
numit Propagare- napoi (BackPropagation). Idea de baz aparine lui Werbos [204], dar
este reformulat independent i adus n atenia lumii tiinifice de Rumelhart, Hinton i
Williams [172]. Din acest moment se pune n eviden caracterul universal al calculului
neuronal, construindu-se i un mare numr de aplicaii practice, lumea tiinific acordndu-i
o justificat atenie.
O analiz mai detaliat a aspectului istoric a dezvoltrii calculului neuronal se poate
gsi n lucrarea [6].

I .5. Concluzii

Tot ceea ce am prezentat n acest capitol reprezint o pledoarie n favoarea calculului
neuronal. Din punct de vedere teoretic problemele sunt deosebit de atractive i bine
fundamentate; din punct de vedere practic aplicarea calculului neuronal i prin urmare
construcia unei reele neuronale trebuie s fie precedat de rspunsuri date la urmtoarele
ntrebri:
- Care este arhitectura optimal? Cte straturi sunt necesare? Ci neuroni sunt necesari n
fiecare strat? Cte conexiuni sinaptice sunt necesare i cum trebuie organizate acestea? Ce
fel de funcie de activare trebuie s folosim? Ce lege de nvare este mai eficient?
Trebuie s folosim o lege de nvare sincron sau asincron, determinist sau stohastic?
- Cte exemple trebuie s prezentm reelei neuronale pentru a nva ceea ce dorim noi?
De cte ori trebuie s-i prezentm aceste exemple? E nevoie ca procesul de nvare s fie
supervizat sau poate fi doar rentrit?
- Ce poate efectua de fapt o reea neuronal construit pentru o anumit problem? Cte
probleme poate ea rezolva? Ct de bine? Ct de repede? Ct de robust este reeaua
neuronal fa de date incorecte, deteriorri sau eliminri de neuroni? Poate reeaua
neuronal generaliza cu succes? Ce fel de clase de funcii poate reprezenta?
19
- Cum poate fi implementat din punct de vedere software i hardware reeaua neuronal?
Care sunt avantajele i dezavantajele diferitelor implementri hardware posibile, ce
performane au n raport cu simularea software?
Bineneles, aceste ntrebri nu trebuie privite individual, ci n contextul aplicaiei ce
urmeaz a fi rezolvat. Rspunsul la o ntrebare, ca de exemplu, ce arhitectur trebuie s
folosim, este cunoscut, atrgnd n mod automat rspunsuri la o serie de alte ntrebri.
Acest capitol introductiv, a vrut s pun n eviden faptul c problema abordat, a
calculului neuronal, este suficient de complex, dar c se pare c este i va fi o metod foarte
important att din punct de vedere teoretic, ct i practic.

n finalul acestui capitol voi ncerca o definiie formal a calculului neuronal, preluat
din lucrarea [2]:

Calculul neuronal este studiul unor reele celulare care au capacitatea natural de
a stoca cunotine pe baza experienei acumulate. Un astfel de sistem ce are la baz
calculul neuronal este comparabil cu creierul uman n sensul c cunotinele sunt
acumulate prin antrenament i nu prin programare, fiind stocate prin intermediul unor
modificri a unor noduri funcionale. Cunotinele mbrac forma unor stri stabile sau
cicluri de stri relativ la o mulime de operaii. O proprietate principal a unor astfel de
reele este de a reconstrui aceste stri sau cicluri de stri ca rspuns i la stimuli incomplei
sau zgomotoi.

20
21
II Noiuni generale


I I .1. Elemente de baz ale calculului neuronal

Cercetrile actuale n domeniul calculului neuronal sunt motivate de dorina de a
construi reele neuronale artificiale. Dei, dup cum i numele de reele neuronale o implic,
la nceput scopul a fost modelarea matematic a reelelor neuronale biologice, astzi gama
aplicabilitii lor este aproape universal.
Din punct de vedere neuro-fiziologic, modelele construite cu ajutorul reelelor
neuronale artificiale sunt extrem de simplificate, ele au totui suficiente trsturi care surprind
cele mai importante trsturi ale "calculului" biologic.

II.1.1. Neuronul biologic

Unitatea celular fundamental a sistemului nervos, i n particular a creierului, este
neuronul. Creierul uman este constituit din aproximativ 10
11
neuroni, fiecare neuron fiind
interconectat cu aproximativ 10
4
ali neuroni. n Fig. 1.1. este reprezentat schematic un neuron
biologic.
Neuronul biologic este constituit din trei pri fundamentale [89]:
- Arborele dendritic care colecteaz semnalele de intrare de la ali neuroni.
- Soma care transform n anumite condiii semnalele de intrare n semnale de ieire.
- Axonul care transmite semnalul de ieire ctre ali neuroni prin intermediul arborelui
axonic.
Neuronii sunt interconectai prin intermediul unor legturi numite sinapse, care
reprezint punctele de contact dintre ramurile arborelui axonic ale unui neuron pre-sinaptic i
ramurile arborelui dendritic ale unui neuron post-sinaptic.
Neuronii comunic ntre ei prin intermediul unor semnale electrice, numite poteniale
de aciune sau impulsuri, care sunt propagate de-a lungul axonului, prin pstrarea
amplitudinii i formei semnalului electric, pn cnd ntlnesc legtura sinaptic. La sinaps o
substan chimic, numit neuro-transmitor, este stocat ntr-un numr mare de vezicule.
Potenialul de aciune elibereaz coninutul anumitor vezicule ctre cletele sinaptic.
Moleculele neuro-transmitorului ajung la membrana neuronului post-sinaptic, unde
recepia acestor molecule induc un potenial de aciune post-sinaptic (PSP).
PSP-urile generate n diferite puncte ale arborelui dendritic difuzeaz prin atenuare
ctre soma, unde ele sunt integrate. Dac suma total a PSP-urilor integrate n limita unui
scurt interval de timp depete un anumit prag (threshold) de aproximativ cteva zecimi de
minivoli, numit nivel de activare, neuronul va deveni activ, genernd un potenial de aciune
de-a lungul axonului.
22
Contribuia unui semnal de intrare la PSP caracterizeaz mrimea numit trie
sinaptic sau eficien sinaptic. Un astfel de semnal de intrare are o valoare de aproximativ
1 minivolt, putnd fi un semnal excitator sau un semnal inhibitor, n funcie de influena
pozitiv sau negativ pe care o are n a face un neuron ca s devin activ. Trebuie s
subliniem faptul c PSP-ul nu este unic determinat de semnalul de intrare. Diferite surse de
zgomot, n relaie cu fluctuaiile de cantitate de neuro-transmitor chimic, eliberat la
conexiunea sinaptic, implic o relaie de intrare-ieire de tip probabilistic.
Intervalul de timp dintre momentul emisiei unui semnal la soma neuronului pre-
sinaptic i momentul emisiei unui semnal indus de ctre neuronul post-sinaptic, este de
aproximativ 1-2 msec. De aici rezult c un neuron poate avea o emisie maximal de circa
500-1000 semnale pe secund, care ntr-o reea neuronal este redus de circa 3-5 ori.
Din aceste considerente de dinamic a activitii neuronale, se poate observa faptul c
neuronul biologic este un dispozitiv biologic lent n comparaie cu dispozitivele electronice
construite de om - acestea pot fi chiar de sute de mii de ori mai rapide dect un neuron
biologic. Cu toate acestea, orice sistem de calcul bazat pe dispozitive electronice are
performane inferioare creierului uman constituit din neuroni. Concluzia evident este c
puterea de calcul al creierului uman nu este datorat vitezei de procesare a neuronilor
constitutivi, ci largii interconectri a unor dispozitive biologice lente - neuronii, care
efectueaz operaii simple: integrarea semnalelor sosite de-a lungul arborelui dendritic i
emisia unui semnal de-a lungul axonului, dac semnalul de intrare integrat depete nivelul
de activare.

















Fig. 2.1.: Reprezentarea schematic a neuronului biologic.
1 - Arborele dendritic; 2 - Soma (corpul celular); 3 - Nucleul celulei neuronale;
4 - Axonul; 5 - Arborele axonic; 6 - Conexiuni sinaptice.


23

Modificarea triei sinaptice este rezultatul unui proces de nvare [148]. Legtura
sinaptic i modul de procesare a semnalelor de ctre neuron formeaz mecanismul de
baz al capacitii de memorare al creierului.

II.1.2. Neuronul artificial

ntr-o reea neuronal artificial, unitatea analog neuronului biologic este o unitate de
procesare simpl, care va fi numit neuron artificial, sau mai simplu neuron.
Un neuron artificial are mai multe ci de intrare care corespund arborelui dendritic.
Celei de-a i-a cale de intrare n neuronul al j-lea i corespunde o valoare numeric real x
i
,
echivalentul semnalului electric din modelul biologic al neuronului. Fiecare mrime de intrare
x
i
este ponderat valoarea numeric real w
ji
, echivalentul triei sinaptice din modelul biologic
al neuronului. Produsul x
i
w
ji
reprezint al i-lea semnal de intrare dentritic n al j-lea neuron
artificial.
Aceste valori sunt integrate (sumate), pe baza unui proces similar celui realizat de
soma neuronului biologic.
Suma ponderat x w
i
i
ji
reprezint argumentul unei funcii, numit funcie de
activare care va determina valoarea de ieire axonic y
j
din neuron. Cele mai utilizate funcii
de activare sunt:
- funcia liniar: x x f f = ) ( , : R R (2.1)
- funcia treapt (Heaviside):

<
>
=
0 , 0
0 , 1
) ( }, 1 , 0 { :
x
x
x f f R (2.2)

- funcia ramp:

<
e
>
=
1 , 1
) 1 , 1 (
1 , 1
) ( ], 1 , 1 [ :
x
x
x
x f f R (2.3)
- funcia sigmoidal:
x
e
x f f

+
=
1
1
) ( ), 1 , 0 ( : R (2.4)
- funcia tangent hiperbolic:
x x
x x
e e
e e
x x f f

= = ) tanh( ) ( ), 1 , 1 ( : R (2.5)
- funcia signum:

<
>
= =
0 , 1
0 , 1
) sgn( ) ( }, 1 , 1 { :
x
x
x x f f R (2.6)
Acestea sunt exemple de funcii de activare care sunt cel mai frecvent utilizate n
aplicaiile practice. Funcia de activare depinde de modelul de reea neuronal ales i de tipul
problemei pe care dorim s o rezolvm, alegerea sa nefiind constrns de nici o condiie,
dect eventual de analogia cu modelul biologic.
Valoarea obinut prin aplicarea funciei de activare este propagat pe cile de ieire,
echivalente arborelui axonic din modelul biologic.
24
n Fig. 2.1. avem reprezentarea schematic a neuronului artificial.
n concluzie, neuronul artificial efectueaz urmtoarele operaii:
Integrare (Sumare): I w x
j ji
i
n
i
=
=

0
(2.7)
Activare (Transfer): y f I f
j j
= = ( ) ( w x
ji
i
n
i
=


0
) (2.8)
n cele ce urmeaz vom considera nivelul de activare implicit sau explicit, n funcie
de necesiti, fr ca aceasta s influeneze ntr-un fel generalitatea rezultatelor obinute.
















Fig. 2.2.: Reprezentarea schematic a neuronului artificial. Indicele j reprezint al j-lea neuron
din reeaua neuronal artificial.

Obs.2.1.: Termenul x
o
se numete bias, avnd o valoare constant x
o
= +1 sau x
o
= -1. Rolul
termenului bias este de a permite includerea implicit sau explicit a nivelului de activare u
i
,
care reprezint pragul de activare al neuronului artificial.
De exemplu, presupunnd c avem funcia de activare signum,
f x
x
x
( )
,
,
=
>
<

1 0
0 0
,
atunci putem avea una dintre situaiile:
a). Nivel de activare u
i
explicit:
- Integrare: I w x
j ji
i
n
i j
= >
=

1
u

Activare
f(I
j
)
x
0

x
1

x
i

x
n

y
j

Sumare
I
j



w
j1

w
ji

w
jn

w
j0

25
- Activare: y f I
j j
= ( )

b). Nivel de activare u
i
implicit: notndw
j j 0
= u , x
0
= -1
- Integrare: I w x
j ji
i
n
i
= >
=

0
0
- Activare: y f I
j j
= ( )
Acest model matematic al neuronului artificial, propus pentru prima dat de
McCullogh i Pitts [138], dei foarte simplu, reprezint o unitate de calcul foarte puternic.
McCullogh i Pitts au demonstrat c un ansamblu de neuroni artificiali interconectai este
capabil, n principiu, s efectueze orice calcul, cu condiia alegerii corespunztoare a triilor
sinaptice w
ji
. Acest lucru nseamn c un ansamblu de neuroni artificiali interconectai ntr-un
ansamblu numit reea neuronal, poate efectua orice calcul pe care poate s-l efectueze un
sistem de calcul clasic, chiar dac nu ntotdeauna la fel de repede sau convenabil.

II.1.3. Diferene ntre neuronul biologic i neuronul artificial

Neuronul biologic comport totui multe alte elemente care n modelul simplu al
neuronului artificial au fost cu bun tiin omise [96]. Cele mai semnificative diferene sunt
urmtoarele:
- Neuronul biologic rspunde la semnalele de intrare ntr-un mod continuu i nu discret,
ceea ce se numete rspuns gradual. Dar relaia neliniar dintre semnalul de intrare i
semnalul de ieire la un neuron biologic este o trstur universal, care apare i la
neuronul artificial prin intermediul funciei de activare.
- Neuronii biologici nu au toi acelai moment fix de activare i nici nu acioneaz sub
controlul central al unui tact generat de un ceas.
- Cantitatea de substan neuro-transmitoare eliberat de sinaps poate varia ntr-un mod
impredictibil. Acest efect poate fi modelat, considernd o generalizare stohastic a
dinamicii modelului determinist McCullogh-Pitts.
Chiar dac uneori vom face apel la realismul biologic, vom fi interesai de trsturile
i capacitatea de calcul ale modelului de reea neuronal artificial i nu de aplicabilitatea
direct n modelarea creierului. Legtura dintre reelele neuronale biologice i artificiale nu
este important la nivelul modelrii detaliate, ci la nivelul reprezentrii i la nivelul algoritmic
[138]. Dei implementrile biologice i artificiale ale algoritmilor sunt diferite, totui exist
numeroase trsturi comune la nivel algoritmic.

I I .2. Reele neuronale artificiale

Reelele neuronale artificiale sunt constituite din numeroi neuroni artificiali
interconectai ntre ei. Neuronii constitueni sunt de obicei organizai n mulimi distincte
numite straturi (layers). Exist i cazuri de reele neuronale particulare, avnd o topologie
special, cnd neuronii nu sunt organizai pe straturi bine definite, ci pe anumite submulimi
26
de neuroni. O reea neuronal clasic const dintr-o secven de straturi de neuroni, cu
conexiuni totale sau aleatore ntre neuronii coninui n straturi succesive. ntotdeauna vom
avea pentru o reea neuronal, cel puin dou straturi de neuroni, ce au rolul de a comunica cu
mediul exterior:
un strat de intrare: care are rolul de a prelua datele de intrare x
i
, i = 0, ., n cu termen
bias (vezi Obs. 1.1) sau x
0
= 1, i = 1, ., n fr termen bias.
Vectorul x = (x
0
, x
1
, ..., x
n
) sau x = (x
1
, x
2
, ..., x
n
) va fi numit vector de intrare al reelei
neuronale.
un strat de ieire: unde se obin rezultatele y
j
, j = 1, ., m furnizate de reeaua
neuronal, ca rspuns la vectorul de intrare prezentat la stratul de intrare i al propagrii
acestor date de la stratul de intrare ctre stratul de ieire.
Vectorul y = (y
1
, y
2
, ..., y
m
) se numete vector de ieire al reelei neuronale.
toate celelalte straturi ale reelei neuronale, dac exist, diferite de stratul de intrare i de
stratul de ieire, vor fi denumite straturi ascunse(hidden layers).
Neuronii din stratul de intrare au ntotdeauna ca i funcie de activare funcia liniar,
rolul lor fiind doar de-a propaga ctre stratul succesor vectorul de intrare. De aceea, stratul de
intrare are doar rolul unui zone tampon, de preluare a datelor de intrare fr a efectua nici o
procesare a cestora. Ceilali neuroni, din celelalte straturi, pot avea orice funcii de activare.
Obs. 2.2.: Cnd vom spune despre o reea neuronal c are n straturi, nu vom lua n calcul i
stratul de intrare, ceea ce nseamn c vom avea n -1 straturi ascunse + stratul de ieire.

Fig. 2.3.: Arhitectura general a unei reele neuronale.



x
1
x
2
x
i
x
n
y
1
y
2
y
j
y
m
Strat de
intrare
Strat de
ieire
Straturi ascunse

27
I I .3. Modul de operare al reelelor neuronale

Vom considera n cele ce urmeaz reele neuronale directe (feed-forward) [70], la
care propagarea informaiilor se face de la stratul de intrare ctre stratul de ieire, fr a exista
conexiuni de tip feedback ntre neuroni dintr-un acelai strat sau ctre neuronii situai ntr-un
strat predecesor.
Reelele neuronale care conin legturi sinaptice ntre neuroni coninui n acelai strat
sau ntre neuronii unui strat oarecare i neuronii unui strat predecesor se numesc reele
neuronale recurente (feedback).
Vom presupune c avem o reea neuronal cu l straturi (vezi Obs.2.2), cu urmtoarea
configuraie:
n neuroni n stratul de intrare.
n
j
neuroni n cel de-al j-lea strat ascuns, j = 1, ..., 1 - l .
m neuroni n stratul de ieire.
w
ji
k ( )
tria sinaptic dintre neuronul al i-lea situat n stratul k -1 i neuronul al j-lea situat
pe stratul k.
f
k
funciile de activare corespunztoare stratului k, k = 1, 2,..., l.

Modul de operareal reelei neuronale directe este urmtorul:

pentru stratul de intrare (stratul 0): prezentarea vectorului de intrare
- ( )
n
x x x , , ,
1 0
= x ;
pentru stratul 1:
- Integrare:
1
0
) 1 ( ) 1 (
,..., 2 , 1 , n j x w I
i
n
i
ji j
= =

=
;
- Activare: y f I f w x j n
j j ji
i
n
i
(1) (1) (1)
( ) ( ), ,2,..., = = =
=
1 1
0
1
1 ;
pentru stratul ascuns k, k = 2,...,l-1:
- Integrare: I w y j n
j
k
ji
k
i
n
i
k
k
k
( ) ( ) ( )
, ,2, ..., = =
=

0
1
1
1 ;
- Activare: y f I f w y j n
j
k
k j
k
k ji
k
i
n
i
k
k
k
( ) ( ) ( ) ( )
( ) ( ), ,2, ..., = = =
=

0
1
1
1 ;
pentru stratul de ieire l:
- Integrare: I w y j m
j
l
ji
l
i
n
i
l
l
( ) ( ) ( )
, ,2, ..., = =
=

0
1
1
1 ;
28
- Activare: y f I f w y j m
j
l
l j
l
l ji
l
i
n
i
l
l
( ) ( ) ( ) ( )
( ) ( ), , ,..., = = =
=

0
1
1
12 ;
Pentru a putea implementa o problem folosind calculul neuronal, respectiv pentru a
construi o reea neuronal relativ la acea problem, vom avea de luat n considerare dou
etape principale [70]:
- nvare (Antrenament);
- Generalizare(Testare).

nvarea (antrenamentul). Reprezint procesul de modificare a triilor sinaptice ca
rspuns la vectorul de intrare prezentat la stratul de intrare al reelei neuronale (uneori i a
vectorului int prezentat la stratul de ieire al reelei neuronale), n scopul configurrii reelei
neuronale pentru a executa aciunea dorit.
Generalizarea (testarea). Dup ce reeaua neuronal a fost nvat pe baza unui
numr suficient de exemple, ea va fi capabil s induc o relaie complet de interpolare sau
extrapolare a exemplelor nvate. Generalizarea reprezint faza de rspuns a reelei
neuronale, cnd prezentndu-i-se vectori de intrare noi care nu au fost prezentai n faza de
antrenare, vectorul de ieire va fi cel ateptat, cu o posibil eroare foarte mic. Calitatea
rspunsurilor n faza de generalizare reprezint elul fazei de nvare - trebuie s nvm
reeaua neuronal pn cnd va generaliza suficient de bine.
Modul de operare al reelei neuronale poate fi influenat de modul de operare al
neuronilor dintr-un strat, pe baza a dou operaii posibile:
- Normalizarea. Reprezint procesul de scalare a vectorului de ieire al unui strat al
reelei neuronale, astfel nct suma total a componentelor acestui vector s fie
constant. Acest lucru este ntlnit i la reelele neuronale biologice, unde neuronii de
pe un strat sunt conectai la ceilali neuroni ai aceluiai strat, fcnd posibil ca fiecare
neuron s-i auto-ajusteze semnalul de ieire n concordan cu semnalul total de ieire
a stratului. Rezultatul operaiei de normalizare este c pstreaz un nivel constant de
activitate la nivelul unui strat de neuroni.
- Competiia (concurena). Reprezint procesul de interaciune al unui neuron de pe un
strat al reelei neuronale, cu ceilali neuroni de pe acelai strat. Neuronul sau un grup
de neuroni care genereaz valori de ieire maximale, vor fi declarai ctigtori,
fiind singurii a cror valoare de ieire va fi propagat mai departe.
Reelele neuronale ce conin straturi cu mod de operare competitiv, le vom numi reele
neuronale competitive, iar cele care nu conin straturi competitive le vom numi reele
neuronale pasive.

I I .4. Taxonomia reelelor neuronale

Avnd n vedere caracteristicile unei reele neuronale prezentate n paragraful
precedent, i anume [90]:
- funcii de activare liniare vs. funcii de activare neliniare;
- mod de operare direct (feedforward) vs. mod de operare recurent;
29
- lege de nvare supervizat vs. lege de nvare nesupervizat;
- straturi concurente vs. straturi pasive.
Putem prezenta o privire de ansamblu asupra realizrilor de pn acum n domeniul
calculului neuronal, i anume o taxonomie a reelelor neuronale. Fr a avea pretenia de a
cuprinde n totalitate diversa clas de reele neuronale existent, totui cele patru caracteristici
de mai sus permit o ncadrare a majoritii reelelor neuronale.
Clasificarea reelelor neuronale:
- liniare
- directe
- nvare nesupervizat
Asociator liniar:
- Anderson (1976) [7];
- Willshaw (1977) [209];
- nvare supervizat
Regresii liniare multiple:
- Kohonen (1990) [117];
- recurente
- nvare supervizat
- competitiv
Art - Adaptive Resonance Theory:
- Grossberg (1987) [86];
- pasiv
Boltzmann, Recurrent Back-Propagation,
Jordan Nets:
- Ackley, Hinton & Sejnowski (1985);
- Pineda (1989);
- Jordan (1986);
- nvare nesupervizat
- competitiv
Art - Adaptive Resonance Theory:
- Grossberg (1987) [86];
- pasiv
BSB - Brain State in a Box, Hopfield Nets,
Interactive Activation:
30
- neliniare
- directe
- nvare nesupervizat
- competitiv
Feature Maps:
- Kohonen (1983) [116];
- pasiv
Infomax:
- Linsker (1987) [128];
- nvare supervizat
- competitiv
Competitive Learning:
- Rumelhart & Zipser (1986) [172][173][174];
- pasiv
Perceptron, Delta-Rule, Back-Propagation:
- Rosenblatt (1962) [170];
- Widrow & Hoff (1960) [207];
- Rumelhart & al. (1986) [172];

- recurente
- la fel ca la reele neuronale liniare-recurente.


I I .5. Calculul neuronal versus Inteligena artificial i
calculul algoritmic

Folosind termeni de informatic, am putea descrie creierul ca un sistem de calcul
paralel, compus din aproximativ 10
11
procesoare. Folosind modelul simplu McCullogh-Pitts,
rezult c fiecare procesor execut un program foarte simplu: integrare i activare (II.1.2).
Faza de activare reprezint generarea unui semnal de ieire, reprezentat printr-un numr real
y, semnal care este propagat ctre alte "procesoare" (neuroni), care la rndul lor efectueaz un
calcul similar.
Diferena dintre acest mod de procesoare al informaiilor i procesarea clasic von
Neumann este evident. n calculul neuronal avem un numr mare de procesoare, fiecare
31
executnd un calcul simplu (integrare-activare), spre deosebire de calculul tradiional unde
unul sau cteva procesoare execut secvene complexe de calcule.


II.5.1. Programare versus nvare

Spre deosebire de sistemele expert dezvoltate ca elemente de Inteligen Artificial,
unde baza de cunotine este explicitat sub forma unui set de reguli implementate de un
programator folosind un anumit limbaj de programare, calculul neuronal, respectiv reelele
neuronale i genereaz propriile seturi de reguli din nvarea exemplelor nvate. nvarea
este realizat pe baza unei legi de nvare care ajusteaz triile sinaptice ale reelei neuronale
ca rspuns la exemplele de antrenament.
Pentru ca reeaua neuronal s execute task-ul dorit, nu este nevoie s scriem nici un
fel de program. Trebuie doar s nvm reeaua, prin prezentarea unui numr suficient de
exemple relevante, cu scopul de a ajunge la o generalizare performant.
Dac ntr-un model de calcul tradiional - program, sistem expert - apar cereri de
informaii noi sau cereri de a modifica informaiile existente, setul de reguli care
implementeaz baza de cunotine nu este capabil s interpoleze rspunsul dorit.
Programatorul, expertul, va trebui s construiasc noi reguli, folosind instruciunile unui
limbaj de programare, testnd interaciunea acestor noi reguli cu cele vechi implementate.
Putem defini principalul neajuns al sistemelor tradiionale de calcul: imposibilitatea de a
genera reguli noi sau de a le modifica automat pe cele vechi, reguli ce reprezint baza de
cunotine a task-ului ce se dorete a fi rezolvat.

II.5.2. Memorii asociative distributive

O caracteristic important a calcului neuronal este modul de stocare a datelor de ctre
reeaua neuronal. Unitatea de memorare o reprezint tria sinaptic. Starea curent de
cunotine a reelei neuronale va fi caracterizat de valorile numerice reale ce corespund n
acel moment triilor sinaptice. O dat de intrare n reeaua neuronal nu va fi stocat ntr-o
poziie unic, ci va fi distribuit n reeaua neuronal, mprind spaiul de memorare i cu alte
date de intrare.
Reelele neuronale pot fi utilizate i ca memorii asociative. Acest lucru nseamn c
dup ce am antrenat reeaua neuronal, dac i prezentm o dat distorsionat din mulimea de
antrenament, reeaua neuronal va genera un rspuns similar cu cel al datei nedistorsionate.
Un caz particular l reprezint reelele neuronale auto-asociative, unde vectorul de intrare
coincide cu vectorul de ieire. Prezentndu-i-se un vector de intrare distorsionat, la stratul de
ieire vom obine vectorul restaurat.



32
II.5.3. Tolerana la deteriorri

Sistemele de calcul tradiionale sunt inutilizabile la apariia celui mai minor defect la
unitatea de memorie. Este suficient deteriorarea unui singur bit de memorie pentru ca datele
memorate s se altereze.
La reelele neuronale, deteriorarea unor neuroni sau a unor trii sinaptice, nu atrage
dup sine o deteriorare abrupt a performanelor. Cu ct avem un grad mai mare de degradare
al reelei neuronale, cu att se deterioreaz performanele reelei neuronale, fr ca aceasta s-
i nceteze funcionarea.
Tolerana la deteriorri a reelei neuronale este datorat modului distribuit de stocare a
datelor. Tolerana la deteriorri este o caracteristic fundamental a reelelor neuronale
biologice. n sistemul nervos, zilnic se degradeaz cteva mii de neuroni, fr ca aceasta s
afecteze, cel puin pn la o anumit vrst, funcionalitatea i robusteea activitii sale.
Acest fenomen poate fi privit ca o trstur fundamental a evoluiei inteligenei [96].

II.5.4. Recunoaterea formelor (Pattern Recognition)

Sistemele de calcul neuronal sunt deosebit de eficiente n aciuni legate de
recunoaterea formelor. Reelele neuronale s-au dovedit a fi mult superioare sistemelor
statistice tradiionale sau sistemelor expert.
Un exemplu elocvent de recunoatere a formelor este nsi abilitatea de a translata
simbolurile de pe aceast pagin n cuvinte, propoziii, fraze pline de coninut. Recunoaterea
formelor este o aciune care necesit capabilitatea de a cuprinde simultan o mare cantitate de
informaii i de a emite rspunsuri generale. Recunoaterea formelor necesit sisteme de
calcul capabile s "neleag" date pariale sau deformate [42].
Reelele neuronale posed capacitatea de a nva i de a construi structuri unice
relative la o problem dat, fiind din acest motiv deosebit de eficiente n recunoaterea
formelor. Capacitatea reelelor neuronale de a selecta combinaii de trsturi pertinente pentru
o anumit problem le face s fie superioare sistemelor statistice. De asemenea, capacitatea
reelelor neuronale de a deduce aceste trsturi pertinente, prin nsi modul lor de aciune i
nu prin intervenia deliberat a unui programator, le face s fie superioare i sistemelor expert.

II.5.5. Sintez

Problema nvrii reelelor neuronale, este echivalent din multe puncte de vedere cu
problema aproximrii i interpolrii unei funcii continue. n aceast analogie, a nva reeaua
neuronal cu ajutorul unei legi de nvare supervizate, nseamn a determina acea funcie
parametric f
w
pentru care:
y F = ( , ) x w
unde w reprezint mulimea triilor sinaptice ale reelei neuronale. S-a demonstrat faptul c
reelele neuronale sunt aproximatori universali, fiind capabile s aproximeze arbitrar de bine
orice aplicaie continu [44], [57]. Aceast capacitate a reelelor neuronale artificiale de a
33
sintetiza funcii continue complexe, este analog cu abilitatea reelelor neuronale biologice de
a nva micri coordonate complexe, ca de exemplu de a folosi unelte, de a face sport.

II.5.6. Calculul neuronal versus calculul algoritmic

Un algoritm reprezint descrierea unei secvene de instruciuni i ordinea de execuie a
acestor instruciuni, care au ca scop atingerea unui el. Evident aceast definiie nu cuprinde
nici pe departe trsturile fundamentale ale calculului algoritmic. De aceea, cea mai bun cale
de a caracteriza calculul neuronal este de a enumera caracteristicile echipamentelor pe care
algoritmul se implementeaz, adic calculatorul von Neumann:
- singur unitate central (CPU);
- efectuarea calculelor n ordine secvenial;
- mulime mare de instruciuni prin care se descrie algoritmul;
- instruciunile pentru descrierea algoritmului sunt stocate n memorie;
- operanzii folosii n calcule, precum i rezultatele obinute sunt stocate n memorie, n
locaii bine stabilite;
- Datele necesare algoritmului sunt localizate.
Descrierea de mai sus corespunde tipului de calcul secvenial, cunoscut sub numele de
SISD (Single Instruction Single Datastream) [99]. Variaiile invocate n cadrul calculului
paralel nu reprezint altceva dect variante ale SISD:
- SIMD (Single Instruction Multiple Datastream): fiecare instruciune opereaz pe mai
multe date.
- MISD (Multiple Instruction Single Datastream): mai multe instruciuni opereaz n
paralel asupra unor date, o instruciune pe dat, dar mai multe instruciuni simultan.
Denumirea consacrat este de arhitectur pipeline.
- MIMD (Multiple Instruction Multiple Datastream): mai multe operaii opereaz pe mai
multe date simultan. Acest lucru se reduce de obicei la mai multe maini SISD
interconectate.
Chiar dac aceste variante de sisteme de calcul pot implementa calculul algoritmic paralel,
ceea ce duce la o eficientizare a vitezei de calcul, trstura fundamental rmne procesarea
secvenial a datelor.
Din cele prezentate pn acuma s ncercm s caracterizm calculul neuronal:
- exist un numr mare de elemente de procesare (neuroni);
- fiecare element de procesare efectueaz un numr mic de calcule simple (adunri,
nmuliri, comparaii);
- fiecare element de procesare este conectat la multe alte elemente de procesare;
- numrul de conexiuni dintre elementele de procesare este mult mai mare dect al
elementelor de procesare;
34
- tria legturii dintre elementele de procesare este variabil, i ceea ce este foarte
important, este faptul c reeaua neuronal i modific singur tria acestei legturi;
- dac la un sistem de calcul von Neumann, instruciunile care se execut de elementul de
procesare caracterizeaz deplin aciunea de executat, la o reea neuronal elementele de
procesare efectueaz calcule simple, independente de aciunea de executat;
- reeaua neuronal nva cum s execute aciunea dorit prin antrenament (experien); de
aceea ea nu este programat prin intermediul unui set de reguli descrise a priori;
- informaia este distribuit n reeaua neuronal, fiind stocat n triile legturilor sinaptice
dintre neuroni.
Comparaia dintre calculul algoritmic i calculul neuronal scoate n eviden
urmtoarea concluzie:
+ Calculul algoritmic necesit programare, adic stabilirea unui set de reguli care s
caracterizeze a priori calculul ce urmeaz a fi implementat pe calculator;
+ Reelele neuronale nva, absorb experien, modificndu-i structura intern n scopul
efecturii aciunii dorite.

I I .6. Domenii de utilizare ale reelelor neuronale

Din cele prezentate pn acum, rezult faptul c reelele neuronale sunt utile ntr-o
gam foarte diversificat de aplicaii. Dac studiem literatura de specialitate relativ la
domeniul aplicativ al reelelor neuronale, vom gsi aplicarea lor n toate domeniile activitii
umane. Pornind de la art, tiine naturale, tiine sociale, industrie, agricultur, mergnd pn
la sport, divertisment, aproape c nu existe domeniu n care s nu gsim aplicaii ale
calculului neuronal. Acest lucru nu este de mirare, deoarece analiznd trsturile calculului
neuronal (I.2) deducem caracterul su universal. Totui, cea mai adecvat utilizare a
calculului neuronal o reprezint domeniile apropiate percepiei i gndirii umane.

II.6.1. Procesarea limbajului

Conversii text-limbaj

T. Sejnowski i C. Rosenberg [183] au aplicat sistemele de calcul neuronal n
domeniul translatrii unui text scris n limbaj vorbit. Proiectul lor, numit Nettalk, a avut la
baz o reea neuronal direct cu dou straturi, nvat pe baza unei legi de nvare
supervizat.
Dup cum se vede n Fig.2.4, reeaua neuronal Nettalk cuprinde un strat de intrare cu
7 neuroni, valorile admisibile de intrare fiind caracterele alfabetului englez i semnele de
punctuaie. Stratul ascuns este constituit din 80 de neuroni, iar stratul de ieire din 26 de
neuroni, fiecare corespunznd unei uniti fonetice, numit fonem. Reeaua neuronal a fost
antrenat cu ajutorul unui dicionar de 1024 cuvinte. Dup 10 edine de antrenament s-a
35
obinut o pronunie inteligibil, iar dup circa 50 de edine de antrenament s-a obinut o
acuratee de 95% n pronunie.
S-a constatat faptul c reeaua neuronal a reuit s extrag din datele nvate o serie
de trsturi eseniale procesului de vorbire. Astfel, neuronii din stratul ascuns rspund
difereniat, prin valori de activare mai mari sau mai mici, la vocale sau consoane. Analizndu-
se structura intern i modul de stocare a datelor n reea, s-a regsit nsi structura
fonologic a limbii engleze. Deteriorri premeditate ale reelei neuronale Nettalk, au dus la o
degradare continu i lent a performanelor sale, dar nu catastrofal, deteriorare imediat
recuperat printr-o nou faz de re-antrenare.











Fig.2.4.: Arhitectura general a reelei neuronale Nettalk.

Un produs similar de conversie text scris-text pronunat, avnd la baz un sistem
expert, produs de firma DEC i numit DecTalk, a necesitat un efort uria de programare al
unei echipe de 35 specialiti, timp de 2 ani de zile, fr a obine un produs superior reelei
neuronale Nettalk.
Aceeai arhitectur ca la reeaua Nettalk a fost aplicat de Qian i Sejnowski [163] la
determinarea structurii secundare a proteinelor, n scopul de a transcrie secvene de DNA
pentru coduri de proteine.

Procesarea limbajelor naturale

D. Rumelhart i J. McClelland [174] au introdus reelele neuronale n domeniul
procesrii limbajului natural. Prin procesare a unui limbaj natural vom nelege studiul
modului de construcie a regulilor unui limbaj.
D. Rumelhart i J. McClelland au studiat acest proces cu ajutorul unei reele neuronale
capabile s nvee timpul trecut (Past Tense) al limbii engleze. nvnd reeaua neuronal, ea
a progresat din faza unui nceptor care face greeli de tipul bring-bringed, pn la o faz de
specialist n care era capabil de a determina timpul trecut pentru verbe neregulate. Abilitatea
reelei neuronale de a generaliza pe baza unor date incomplete i de a se auto-organiza, au
permis ca reeaua neuronal s genereze rspunsuri corecte cnd i s-a prezentat un verb nou
sau necunoscut.
T h i s i s t h e
Strat ascuns
\z\ Stratul de ieire
(Foneme)
input

36

II.6.2. Comprimarea datelor

G.W. Cottrell, D.Zipser i P. Munro [33] au utilizat reelele neuronale n scopul de a
comprima eficient informaii corespunztoare unor imagini grafice. Imaginile grafice ocup,
n funcie de rezoluia de reprezentare i de numrul de culori folosit, un spaiu de memorare
foarte mare, ajungnd pn la ordinul mega-octeilor.
Compresia imaginilor reprezint o necesitate practic, deoarece spaiul de memorare
este foarte costisitor, i n acelai timp timpul de transfer al unei imagini este evident
influenat de dimensiunea spaiului de memorare necesar pentru respectiva imagine.
Sistemul de calcul neuronal conceput de Cottrell, Munro i Zipser are la baz o reea
neuronal cu trei straturi, capabil a comprima o imagine, i bineneles capabil i de a o
decomprima fr distorsiuni. Este important de menionat legea de nvare nesupervizat
folosit pentru a nva reeaua neuronal, care a permis ca ea s se auto-configureze, fr
intervenia specialitilor. Cu aceast reea neuronal s-a reuit comprimarea datelor la un
factor de 8:1, cu o decomprimare ireproabil a imaginii originale.

II.6.3. Recunoaterea caracterelor

Un domeniu important de utilizare a reelelor neuronale l reprezint domeniul
interpretrii vizuale i al clasificrii simbolurilor.
- Recunoaterea scrisului de mn. Cercettori ai companiei Nestor Inc. din SUA, au
dezvoltat un sistem de calcul neuronal care are ca i dispozitiv de intrare a datelor o
tablet digitizoare, pe care se poate scrie cu ajutorul unui Light-Pen. Reeaua neuronal a
fost antrenat cu diferite scrisuri de mn, ea fiind capabil s interpreteze un scris de
mn oarecare cu o nalt acuitate.
Exist un mare numr de sisteme de recunoatere optic a caracterelor, numite OCR
(Optical Character Recognition). Ceea ce difereniaz reelele neuronale fa de sistemele
OCR tradiionale este flexibilitatea. Dup nvare, reeaua neuronal este capabil s
recunoasc o mare diversitate de scrieri i s fac presupuneri pertinente relativ la
caracterele confuze.
Cercettorii companiei Nestor au construit o reea neuronal pentru scrierea japonez
(Kanji). Prin folosirea reelelor neuronale n acest domeniu, s-a fcut posibil eliminarea
dificultilor de a cuantifica elementele specifice ale unui limbaj.
- Prelucrarea imaginilor. K. Fukushima [72], [73] a elaborat un sistem de calcul neuronal
pentru recunoaterea imaginilor, cu aplicabilitate practic n domeniul recunoaterii
caracterelor. Reeaua neuronal construit, are la baz un sistem performant de
recunoatere a formelor, numit Neocognitron.
Neocognitronul este de fapt o reea neuronal cu mai multe straturi ce simuleaz modul de
prelucrare a imaginilor de ctre cortexul uman. Straturile ascunse succesive de neuroni ale
Neocognitronului au rolul de a extrage trsturi definitorii ale imaginii fr a fi influenate
de orientare sau distorsiuni. La nivelul stratului de intrare formele sunt unic determinate, o
dat cu propagarea informaiei ctre stratul de ieire, activndu-se doar anumii neuroni,
care corespund unor trsturi definitorii ale imaginii.
37
II.6.4. Probleme combinatoriale

Reelele neuronale au fost folosite cu succes la rezolvarea problemelor NP-complete
(Non Polynomial). Este cunoscut faptul c problemele combinatoriale NP-completenecesit
timpi de calcul care cresc exponenial cu numrul de date de intrare.
Ca un test (benchmark), celebra problem a comis-voiajorului care trebuie s strbat
un numr dat de orae, folosind drumul cel mai scurt, reprezint un test de msur a
performanelor unor reele neuronale. Literatura de specialitate conine un numr
impresionant de soluii ale acestei probleme, majoritatea bazate pe o arhitectur particular de
reea neuronal, numit reea neuronal de tip Hopfield.
Cercettorii J. Hopfield i D. Tank [101], au fost primii care au aplicat calculul
neuronal n domeniul rezolvrii problemelor combinatoriale NP-complete. Ei au construit o
reea neuronal pentru a rezolva problema comis voiajorului, atandu-i o funcie energetic
dependent de starea neuronilor constitueni. Minimul funciei energetice, corespunde unei
stri stabile a neuronilor, drumul minim fiind astfel regsit.
H. Szu [191] a mbuntit reeaua neuronal construit de Hopfield i Tank, utiliznd
o funcie energetic care conduce la stri mai stabile i prin urmare la soluii mai performante.

II.6.5. Recunoaterea formelor

Clasificarea formelor
Dup cum am artat, n domeniul recunoaterii formelor (pattern recognition),
sistemele de calcul neuronal au performane superioare sistemelor expert sau sistemelor
clasice de calcul [199]. Exist o gam foarte diversificat de aplicabilitate a sistemelor de
calcul neuronal n acest domeniu. Unul din exemplele semnificative, l reprezint aplicarea
reelei neuronale de tipul BP (BackPropagation) n clasificarea intelor radar. R. Gorman i T.
Sejnowski [84] au construit o reea neuronal tip BP cu dou straturi; stratul de intrare conine
un numr de 60 de neuroni, corespunznd la cele 60 benzi de frecven necesare detectrii
unei inte radar, stratul de ieire al reelei neuronale, conine un numr de neuroni
corespunznd la numrul de inte radar; stratul ascuns are un numr de 12 neuroni.
Dup faza de antrenament, reeaua neuronal s-a comportat ca un operator radar
supercalificat.
Control industrial
Rezultate foarte bune s-au obinut aplicnd reelele neuronale tip BP la recunoaterea
imaginilor furnizate de camere video, pentru a conduce un robot. D. Glover [83] a folosit
pentru digitalizarea imaginilor video un procesor optic Fourier, care lucreaz n timp real.
Reeaua neuronal era constituit din 2 straturi: stratul ascuns cu un numr de 20-40 neuroni,
iar stratul de ieire un numr corespunztor de neuroni de comand pentru robot. Aplicnd
aceast reea neuronal n domeniul controlului industrial, s-au obinut rezultate interesante.
n cadrul cercetrii conduse de Glover, s-a pus n eviden pentru prima dat
fenomenul de supra-antrenament (overtraining), adic faptul c prezentarea unui numr prea
mare de exemple de antrenament poate duce la distrugerea datelor memorate pn atunci.
Acest lucru se explic prin faptul c reeaua neuronal se auto-configureaz iniial n
38
concordan cu tendina statistic a datelor de antrenament, prezentarea unor noi date
irelevante producnd deviaii de la tendina statistic general.
Fenomenul de supra-antrenament este unul din principalele neajunsuri ale legilor de
nvare supervizate care ncearc s nvee date eronate sau irelevante, implicnd modificri
semnificative asupra triilor sinaptice, fa de ajustri minore ale triilor sinaptice provocate
de datele corecte, care genereaz erori minime.

II.6.6. Prelucrarea semnalelor

Predicie
Dup cum se tie, problemele de predicie pentru serii haotice sunt dificil de rezolvat
dac utilizm metode convenionale liniare sau polinomiale. Lapedes i Farbes [125] au
construit o reea neuronal pentru predicia unei serii haotice, reprezentnd soluiile numerice
ale unei ecuaii difereniale, cunoscut sub numele de ecuaia Mackey-Glass [131]:

dx
dt
x t
x t
x t
= +

+
01
02
1
10
. ( )
. ( )
( )
o
o
(2.9)
unde o reprezint un factor de ntrziere.
Ideea de baz const n a antrena reeaua neuronal cu o mulime de date de forma:
x t x t x t x t n ( ), ( ), ( ),..., ( ( ) ) A A A 2 1 (2.10)
iar ca date int, date cunoscute de forma x t T ( ) + . Parametrul o controleaz haoticitatea
rezultatelor numerice.
Reeaua neuronal construit de Lapedes i Farbes are trei straturi, 2 straturi ascunse,
un strat de ieire constituit dintr-un singur neuron liniar (cu funcie de activare liniar). Ceea
ce s-a constatat la aceast reea neuronal este aparenta sa capabilitatea de a reprezenta n
straturile ascunse legea de generare a unei astfel de serii haotice.
Modelarea sistemelor, filtrarea semnalelor
Aceeai autori, Lapedes i Farbes, au obinut rezultate interesante n domeniul
modelrii unor sisteme. ncercarea lor s-a bazat pe modelarea funciei corespunztoare
sistemului:
x t
dx
dt
( )
|
\

|
.
|
2
(2.11)
Reeaua neuronal coninea n stratul de intrare doi neuroni, corespunznd valorilor
x t ( ) i x t ( . ) 0001 , iar stratul de ieire un singur neuron corespunznd valorii
dx
dt
. Reeaua
neuronal avea dou straturi ascunse, fiecare strat avnd cte 10 neuroni. nvarea reelei s-a
fcut cu ajutorul unor date corespunznd unor semnale cu band unic limitat, ca o sum de
20 de sinusoide. Dei, nvarea reelei neuronale s-a fcut relativ la ecuaia (2.11), ea a
nvat de fapt forma general a mecanismului de modelare, comportndu-se satisfctor la
semnale arbitrare prezentate la stratul de intrare.
Reelele neuronale au fost folosite i n aplicaii de filtrare a semnalelor, cu scopul de a
elimina zgomotul perturbator. S-au construit n acest fel reele neuronale aplicate n domeniul
39
medicinii [148], pentru a elimina zgomotul produs de imperfeciunea aparatelor de msur
EKG, EEG etc. Reelele neuronale sunt folosite i n domeniul telecomunicaiilor, pentru a
elimina zgomotul i interferena semnalelor.

II.6.7. Modelare economic i financiar

Modelarea sistemelor economice i financiare cu scopul de a permite analize i
prognoze eficiente, este de o foarte mare importan. Determinarea unor elemente de tendin
economico-financiar cum ar fi consum, pre, inflaie, volum de vnzri, necesar de
aprovizionat etc., sunt n general greu de abordat datorit numrului mare de parametri i a
imprevizibilii variaiei lor [48].
Reelele neuronale au cptat n acest domeniu o recunoatere semnificativ. Mari
companii, cum ar fi Boeing, Volvo, Philips, folosesc sisteme de calcul neuronal n domeniul
managementului firmei [148].

II.6.8. Servo-control

Deosebit de dificil este problema controlului i conducerii unor sisteme complexe
servo-mecanice (roboi). Dificultatea const n a gsi metode computaionale acceptabile
pentru a compensa variaiile fizice din sistem [88]. Dei uneori este posibil a construi formule
matematice care s descrie erori provocate de variaii fizice - erori provocate de alinierea
axelor, deviaii ale organelor n micare - dou probleme sunt de luat n considerare:
- Prima problem: de cele mai multe ori este aproape imposibil s msurm cu acuratee
variaiile fizice.
- A doua problem: complexitatea computaional necesar pentru a rezolva problemele
variaiilor fizice poate fi nefezabil din punct de vedere economic, necesitnd o putere de
calcul uria i echipamente speciale.
Cu toate acestea exist numeroase modele de calcul neuronal care stau la baza
conducerii unor roboi. Un exemplu semnificativ este robotul comandat de o reea neuronal
folosit pentru conducerea unui vehicul. D. Pomerleau [160] a construit n acest scop o reea
neuronal cu dou straturi. Stratul de intrare const dintr-o imagine digitizat de 30x32 pixeli
i 8x32 pixeli de la un sistem video de proximitate. Stratul ascuns coninea 29 de neuroni, iar
stratul de ieire 45 de neuroni dispui liniar. Neuronii din centrul stratului de ieire
corespundeau pentru direcia nainte, cei din stnga i dreapta pentru viraj stnga, respectiv
dreapta.
Dup ce reeaua neuronal a fost antrenat cu un numr de 1200 de imagini simulate,
ea a fost capabil s conduc un automobil cu o vitez de 25 km/h. Viteza limitat era
datorat mai ales faptului c echipamentul de calcul utilizat pentru a implementa reeaua
neuronal, un microsistem Sun-3, nu avea vitez de calcul mare.




40
II.6.9. Teoria aproximrii

Putem considera o reea neuronal ca o implementare a unei reguli de calcul ce ne
permite s obinem un vector de ieire m-dimensional, cunoscnd vectorul de intrare n-
dimensional corespunztor. Aceast regul implementat de reeaua neuronal corespunde de
fapt unei clase de funcii
m n
f R R : . De fapt, n aceast carte vom prezenta rezultate care
dovedesc c reelele neuronale sunt din multe puncte de vedere superioare metodelor de
aproximare-interpolare polinomiale.
n aceste paragrafe am prezentat doar o parte a domeniului de aplicare a reelelor
neuronale, fr a avea pretenia de a epuiza n totalitate posibilitile de aplicare a calcului
neuronal. Dup cum am mai menionat, reelele neuronale sunt modul de implementare a
calculului neuronal, care este practic un instrument universal, cu avantaje i dezavantaje fa
de metodele de calcul clasic sau cele bazate pe sistemele expert.

I I .7. Clasificare

Pentru a avea o imagine de ansamblu asupra modelelor de calcul neuronal construite
pn n prezent, vom prezenta o clasificare a reelelor neuronale din punct de vedere al
domeniului de utilizare.

Domeniul de utilizare Legea de nvare
1. Predicie Supervizat
2. Clasificare Supervizat
3. Asociere de date Supervizat
4. Conceptualizare de date Nesupervizat
5. Filtrri de date Nesupervizat
6. Optimizare Nesupervizat

Vom prezenta n continuare reelele neuronale existente pentru fiecare domeniu de
utilizare.
1. Reele neuronale pentru predicie
Delta Bar Delta (DBD) Fiecare trie sinaptic are propriul
coeficient de nvare auto-ajustabil.
Direct Random Search (DRS) Similar cu BP, ncorpornd un aspect
aleatoriu, ce ine cont de nvarea cu
succes a unor date.
Extended Delta Bar Delta (EDBD) Fiecare trie sinaptic are propriul
coeficient de nvare i propriul
coeficient inerial auto-ajustabil.
41
Back-Propagation (BP) Modificarea triilor sinaptice se face prin
propagarea napoi a erorii dintre vectorul
de ieire i vectorul int, de la stratul de
ieire ctre stratul de intrare.
Back-Propagation with Recirculation
(BP_RCIRC)
La fel ca pentru BP, dar este o reea
neuronal auto-asociativ (II.2.2).
Digital Neural Network Architecture
(DNNA)
Reea neuronal cu o lege de nvare
special, care permite implementarea
reelei pe un chip siliconic produs de
firma Neural Semiconductor din San-
Diego.
Self-Organizing Map into Back-
Propagation (SOM_BP)
Reea neuronal hibrid ce folosete
prima dat o lege de nvare nesu-
pervizat, pentru a separa conceptual
datele de intrare, nainte de a fi folosite
pentru predicie.
Cascade Corelation (Cascade) O variant a modelului BP, unde neuronii
din straturile ascunse sunt adugai unul
cte unul la arhitectura reelei, testndu-
se la fiecare adugare performanele
reelei neuronale.
Adaptive Linear Network (Adaline) Reeaua neuronal cea mai simpl,
constituit dintr-un singur neuron
boolean. De interes istoric [206].
Muliple Adaline Network (Madaline) Reea neuronal cu mai multe straturi,
neuronii fiind elemente de procesare de
tip Adaline.
Simple Perceptron (PS) Reea neuronal direct cu un singur strat.
Multy-Layer Perceptron (PMS) Reea neuronal direct cu dou sau mai
multe straturi.

2. Reele neuronale pentru clasificare
La baza acestor reele neuronale st metoda de auto-organizare dezvoltat de T.
Kohonen [117].
Categorial Learning (Catlrnn) Fiecare categorie de ieire are propriul set
de noduri pentru nvarea punctelor
centrale ale datelor de intrare, avnd un
strat tip Kohonen fr funcie de atracie.
Counterpropagation (Cntrprop) Se nva relaia existent ntre stratul de
ieire i stratul tip Kohonen. Stratul
Kohonen nu are funcie de atracie.
Learning Vector Quantization (LVQ) Fiecare categorie de ieire are propriul set
de noduri. Stratul Kohonen are un
42
mecanism activ, bazat pe o funcie de
atracie i o metod de limitare.
Probabilistic Neural Networks (PNN) Sunt generate funcii probabilistice
empirice de probabilitate, utiliznd reele
neuronale pentru a implementa
clasificatori Bayesieni.
Self-Organizing Map into Categorization
(SOM_CAT)
Reea neuronal hibrid ce utilizeaz un
strat Kohonen bidimensional, cu un
mecanism activ de separare a datelor de
intrare, nainte de a fi categorizate.

3. Reele neuronale pentru asocieri de date
Bidirectional Associative Memory
(BAM)
Reeaua neuronal nva perechi de
vectori (A
1
, B
1
), (A
2
, B
2
), .... Cnd i se
prezint o versiune distorsionat a lui A
i
,
reeaua neuronal va genera perechea
potrivit B
i
.
Boltzmann Pattern Completion
(Boltzcmp)
Reeaua neuronal nva o serie de
vectori de date de intrare. Cnd i se
prezint un vector de intrare distorsionat,
reeaua va genera vectorul restaurat.
Boltzmann Input-Output (Boltz-IO) Reea neuronal avnd un mod de operare
similar cu reelele tip Hopfield, aprnd
n plus o lege de nvare special numit
revenire simulat (simulated annealing).
Hamming Network (Hamming) Un vector de intrare este comparat cu
ceilali vectori memorai, determinndu-
se distana minim la acetia pe baza unei
distane specifice, numit distan
Hamming.
Hamming Network with Lateral
Inhibition (Hamlatin)
Mod de operare similar cu cel al reelei
neuronale tip Hamming, dar selectarea
unui vector se face printr-un proces
similar cu cel biologic, numit inhibiie
lateral, de tip competitiv.
Hopfield Network (Hopfield) Similar cu modelul de reea neuronal tip
Hamming, ns folosete o alt metod de
a determina distana dintre doi vectori.
Spatio-Temporal Pattern Recognition
(SPR)
O serie de vectori predefinii sunt
memorai iniial, fiind folosii n
continuare ca o baz de clasificare a
vectorilor de intrare urmtori. Reeaua
permite acordarea sa pentru a detecta
vectori variabili n timp.

43
4. Reea neuronal pentru conceptualizare
Adaptive Resonance Theory I
(Art I)
Reea neuronal care creeaz categorii ale datelor
de intrare. Un factor de vigilen urmrete i
regularizeaz numrul de categorii formate.
Self-Organizing Map (SOM) Datele de intrare sunt proiectate ntr-o manier
similar cu cea ntlnit la sistemele biologice,
ntr-un strat bi-dimensional.

5. Filtrarea datelor
Recirculation (recirc) Datele de intrare sunt netezite prin comprimare
dup care sunt restaurate. Reeaua neuronal se
comport ca un filtru pentru joas frecven, a
crui punct de tranziie este determinat de
numrul de straturi ascunse.

6. Optimizare
Hopfield Network (Hopfield) Similar cu modelul de reea neuronal tip
Hamming, ns folosete o alt metod de a
determina distana dintre doi vectori.

I I .8. Tehnologii implicate n dezvoltarea calculului neuronal

Din cele prezentate, rezult c aplicarea calculului neuronal este puternic influenat
de dezvoltarea unor tehnologii corespunztoare, care s duc la o rspndire general a
calculului neuronal. Exist la ora actual aproximativ 750 de firme [165], care au ca obiect de
activitate dezvoltarea de sisteme de calcul neuronal, fr a mai pune la socoteal marile
universiti, institute de cercetri, mari companii, unde exist departamente distincte de
cercetare teoretic i aplicativ n domeniul calculului neuronal.

II.8.1. Simulatoare software

Am subliniat n repetate rnduri faptul c trsturile calculului neuronal l fac pe
acesta s fie diferit de calculul tradiional (von Neumann), totui cea mai accesibil metod de
a construi reele neuronale l reprezint simulatoarele software, care ruleaz pe calculatoare
clasice secveniale sau paralele. Aceast idee nu este prea fericit, pentru c n fond rpete
nsi ideea fundamental a calculului neuronal, calculul distribuit, trstur care se pstreaz
doar la nivelul de concepie, nu ns i la cel de execuie.
Lista simulatoarelor software existente pe piaa comercial este impresionant. Din
cele mai importante merit s amintim Neural Works Professional II/Plus al firmei Neural
Ware Inc. din Pittsburgh [148], BrainMaker al firmei California Scientific Software, Neural
Network Utility (NNU) al firmei IBM, Neural-Desk al firmei Neural Computer Sciences,
MacBrain al firmei Neurix, NeuroWindows al firmei Ward Systems Group [165].
44

II.8.2. Acceleratoare hardware

O mbuntire adus performanelor reelelor neuronale implementate prin
intermediul simulatoarelor software pe calculatoare secveniale sau paralele, l reprezint
utilizarea acceleratoarelor hardware. Acceleratoarele hardware sunt circuite electronice
specializate implementrii metodei calculului neuronal, degrevnd unitatea central de un
mare numr de operaii. Ele se ataeaz la calculatoarele clasice, transformndu-le n sisteme
de calcul foarte rapide, care permit aplicaii de calcul neuronal n timp real. Vom prezenta
cele mai importante realizri n acest domeniu: pentru o documentaie mai complet se poate
consulta [55]:
- Mark III, Mark IV: produse de firma TRW din SUA, reprezint procesoare de uz general
pentru o mare gam de aplicaii n domeniul calcului neuronal. Conin un numr de circa
417 000 legturi sinaptice, putnd fi ataate ca un echipament periferic la un calculator din
familia VAX;
- NEP (Network Emulation Processor): dezvoltat de firma IBM, reprezint un accelerator
hardware avnd la baz un procesor VLSI. Cu ajutorul acceleratorului NEP se pot rula
aplicaii complexe de calcul neuronal, fiind de obicei utilizat ca un emulator pentru PAN
(Parallel Associative Network) al firmei IBM. NEP conine o serie de interfee locale de
mare vitez, putnd fi conectat n cascad la alte acceleratoare NEP, permind reele
neuronale de foarte mari dimensiuni;
- Anza, Anza Plus: acceleratoare hardware special construite pentru simularea modului de
funcionare a reelelor neuronale pe un mediu de calcul secvenial. Anza este capabil de a
realiza o putere de calcul de 150 000 de interconexiuni pe secund. Aceast unitate de
msur, numr de interconexiuni pe secund, este factorul de msur a performanelor
computaionale ale unei reele neuronale;
- Delta II: Procesor n virgul mobil, are o capacitate de calcul de 11 000 000
interconexiuni pe secund, admind o arhitectur de cuplare n cascad. Firma
productoare SAIC livreaz o dat cu acceleratorul hardware i un mediu de dezvoltare de
aplicaii avnd la baz calculul neuronal.
Pentru o documentaie mai complet se poate consulta lucrarea [55].

II.8.3. Procesoare neuronale

n ultima perioad s-au dezvoltat i implementat sisteme de calcul neuronal pe chipuri
siliconice. Prezentm cteva realizri semnificative, o lista mai complet putnd fi gsit n
[68], [165], [185]:
- ENN (Electronic Neural Network): Chip siliconic elaborat de firma AT&T, avnd un
numr de 256 neuroni i mai mult de 100 000 legturi sinaptice. ENN este curent utilizat
n domeniul compresiei imaginilor, cu scopul de a transmite imagini de mari dimensiuni
n timp real pe linii telefonice.
- Silicon Retina, Silicon Ear: Chipuri care implementeaz elementele senzoriale ale vzului
i auzului uman. Domeniul lor de aplicabilitate, mai ales n servo-control, biologie,
medicin.
45
- 80170NX ETANN (Electrically Trainable Analog Neural Network): chip neuronal care
permite un strat de intrare cu maximum 128 neuroni, putnd efectua 64 de operaii de
integrare la fiecare trei milisecunde. Firma productoare Intel Neural Network Group.

II.8.4. Procesoare optice

Procesoarele optice reprezint o soluie care a dat foarte bune rezultate n domeniul
calculului neuronal [5], [185]. Aceste procesoare optice posed multe trsturi comune cu
sistemele de calcul neuronal, fiind constituite din matrice de procesoare simple, analoge
neuronilor din reeaua neuronal. De asemenea, modul de operare al procesoarelor optice
conine o larg scal de paralelism. Ca i realizri deosebite n utilizarea procesoarelor optice
n calculul neuronal, menionm:
- firma Hitachi din Japonia a construit un procesor optic corespunznd unei memorii auto-
asociative cu dou straturi, avnd topologia: 32-neuroni n stratul de intrare, 29 neuroni n
stratul ascuns, 26 neuroni n stratul de ieire. Procesorul optic coninea circa 1 000
neuroni/cm
2
;
- firma japonez Mitsubishi a creat unul din cele mai puternice procesoare optice dinamice,
avnd o densitate de 2 000 de neuroni/cm
2.
, cu un numr de 4 straturi de neuroni cu
topologie variabil.



















46
47
III. Procesul de nvare


I I I.1. Noiuni generale


n capitolul precedent am analizat o serie de proprieti ale calculului neuronal,
respectiv ale reelelor neuronale. Cea mai semnificativ proprietate o reprezint fr nici o
ndoial capacitatea reelelor neuronale de a nva din mediul nconjurtor i de a-i
mbunti performanele pe baza acestui proces de nvare. Reeaua neuronal nva pe
baza unui proces iterativ de ajustare a triilor sinaptice i eventual al nivelului de activare.
Dac procesul de nvare decurge bine, atunci reeaua neuronal acumuleaz tot mai multe
informaii, la fiecare iteraie.
Evident c atunci cnd folosim termenul de "proces de nvare" ne situm ntr-o
terminologie mult prea larg, care este dependent de mai muli factori. Fr a ncerca s
teoretizm prea mult putem s observm foarte simplu c termenul de "proces de nvare"
este folosit n maniere total diferite de un psiholog sau de un profesor atunci cnd pred. De
aceea trebuie s ncercm s fim mai riguroi n definirea "nvrii" i a "procesului de
nvare", deoarece vom folosi de acum ncolo foarte des aceste noiuni. Pentru aceasta vom
defini, n contextul calculului neuronal, "nvarea", n felul urmtor [50]:

Def. 3.1: nvarea este un proces prin care parametri reelei neuronale sunt adaptai
permanent prin intermediul unor stimuli provenii de la mediul nconjurtor cruia i
aparine reeaua neuronal. Tipul de nvare este determinat de forma de modificare a
parametrilor reelei neuronale.

Definiia de mai sus conine urmtoarea secven de evenimente [93]:

- Evenimentul 1: Reeaua neuronal primete stimuli de la mediul nconjurtor;

- Evenimentul 2: Reeaua neuronal se modific ca rspuns la stimuli;

- Evenimentul 3: Ca urmare a acestor modificri permanente, care afecteaz structura sa
intern, reeaua neuronal rspunde de fiecare dat ntr-un nou mod mediului de la care
vin stimuli.

S ncercm s dm o formulare matematic acestui proces descris mai sus. Pe baza
celor prezentate mai sus i n capitolul anterior, am vzut c ceea ce se modific n cadrul
procesului de nvare este tria sinaptic. De aceea, avem formularea matematic cea mai
general a procesului de nvare exprimat prin formula:

( ) ( ) ( ) w t w t w t
ji ji ji
+ = + 1 A (3.1)

- w
ji
(t + 1) i w
ji
(t) reprezint noua i vechea valoare a triei sinaptice w
ji
care unete
axonul neuronului i de o dendrit a neuronului j.

- ( ) Aw t
ji
reprezint ajustarea aplicat triei sinaptice w
ji
(t), la momentul t, obinndu-se
valoarea w
ji
(t + 1) la momentul t + 1, n urma procesului de ajustare.

48
Ecuaia (3.1) conine n mod evident efectele Evenimentelor 1, 2 i 3 prezentate mai
sus. Ajustarea ( ) Aw t
ji
este obinut ca urmare a unor stimuli ai mediului nconjurtor
(Evenimentul 1), iar valoarea modificat a triei sinaptice w
ji
(t + 1) definete schimbarea din
reeaua neuronal, ca un rezultat al stimulilor prezentai reelei neuronale (Evenimentul 2).
Din momentul (t + 1) reeaua neuronal rspunde ntr-un mod nou mediului nconjurtor,
deoarece tria sinaptic s-a modificat, devenind w
ji
(t + 1) (Evenimentul 3).

Def. 3.2: Vom numi algoritm de nvare, un set de reguli predefinite care soluioneaz
problema "nvrii".

Evident, pentru o anumit reea neuronal nu exist un unic algoritm de nvare. Mai
degrab exist o mulime de legi de nvare, fiecare dintre ele avnd o serie de avantaje i de
dezavantaje. Ceea ce face ca algoritmii de nvare s fie diferii este modul de calcul al
ajustrii triei sinaptice ( ) Aw t
ji
.
Un alt factor important relativ la procesul de nvare este modul de raportare a unei
reele neuronale la mediul nconjurtor [181]. n acest context putem defini:

Def. 3.3: Vom numi paradigm de nvare, un model al mediului nconjurtor n care are loc
procesul de nvare al reelei neuronale.

Pe aceast baz, putem formula taxonomia fundamental a procesului de nvare:

nvtare pe baza
minimizrii unei functii eroare
nvtare Boltzmann nvtare Hebbian nvtare competitiv
Algoritmi de nvtare
nvtare supervizat nvtare nesupervizat nvtare ntrit
Paradigme de nvtare
Procesul de nvtare

Fig. 3.1.: Taxonomia fundamental a procesului de nvare.


I I I .2. Algoritmi de nvare

III.2.1. nvare pe baza minimizrii unei funcii eroare


n capitolul anterior am introdus noiunile:
-
( )
x

= = x x x P
n 1 2
1 , , , , , , - al - lea vector (dat) de intrare din mulimea de
antrenament;
-
( )
y

= = y y y P
m 1 2
1 , , , , , , - al - lea vector (dat) de ieire generat de reeaua
neuronal cnd la stratul de intrare a fost prezentat vectorul x

.
S introducem urmtoarea notaie:
49
- ( ) P z z z
m
, , 1 , , , ,
2 1
= =

z pentru al - lea vector (dat) int, care reprezint
rezultatul dorit a se obine la stratul de ieire atunci cnd la stratul de intrare a fost
prezentat vectorul x

.
Vectorul x

reprezint stimulul mediului nconjurtor, iar vectorul y

este rspunsul
reelei neuronale la stimulul de intrare x

.
n cursul procesului de nvare, vectorii y

i z

sunt diferii. Diferena dintre cei doi


vectori reprezint vectorul eroare
( )
e

= = e e e P
m 1 2
1 , , , , , , , definit matematic de
formula:
e z y k m P
k k
k

= = = , , , , , , 1 1 (3.2)
Scopul procesului de nvare ce are la baz un algoritm de nvare pe baza
minimizrii unei funcii eroare este, dup cum i spune i numele, minimizarea unei funcii
eroare (cost) ce este construit din semnalul de eroare e k m P
k

, , , , , , = = 1 1 . Prin
aceasta, ntr-o interpretare statistic, vectorul de ieire y

tinde ctre vectorul int z

. Astfel,
procesul de nvare se transform ntr-o problem de optimizare obinuit.
Cea mai des utilizat funcie de eroare este funcia abatere medie ptratic MSE
(Mean Square Error), definit astfel:

( )
MSE E e P
k
k
m

=

(
=
=

1
2
1
2
1
, , , (3.3)
unde am notat cu E operatorul de medie statistic. Dup cum se vede din formula de mai sus,
MSE

reprezint funcia eroare relativ la prezentarea celui de-al - lea vector (dat) de intrare
din mulimea de antrenament.
Evident, putem defini o funcie eroare general, care ine cont de diferena dintre
vectorii de ieire y

i vectorii int z

relativ la toat mulimea de antrenament. Putem scrie:


( )
(

=

= =
P m
k
k
e E
1 1
2
2
1

MSE (3.4)
Procesul de minimizare al funciei eroare MSE n raport cu parametrii reelei
neuronale, deci i procesul de nvare, este o metod de optimizare cunoscut, numit
metoda gradientului descendent [30].
n sine, metoda de optimizare nu prezint probleme, dar din punct de vedere al
calculului neuronal, aceast minimizare este echivalent cu procesul de nvare, fiind
necesare informaii despre caracteristicile statistice ale procesului de nvare. Putem evita
acest lucru, considernd o soluie aproximativ a problemei de optimizare, i anume, suma
ptratelor erorilor dintre vectorului de ieire y

i vectorului int z

:

( )
MSE e P
k
k
m

= =
=

1
2
1
2
1
, ' , , (3.5)
50
Procesul de nvare va consta n minimizarea funciei eroare (3.5), n raport cu triile
sinaptice w
ji
, pe baza metodei gradientului conjugat. Obinem ajustarea triei sinaptice pe
baza relaiei:
Aw
MSE
w
e x
ji
ji
j i


q
c
c
q = = (3.6)
Constanta real q reprezint rata de nvare. Formula de mai sus este cunoscut n
calculul neuronal sub numele de regula delta. Din regula delta se poate observa c ajustarea
triilor sinaptice n procesul de nvare este proporional cu produsul dintre stimulul
(semnalul) de intrare i semnalul de eroare.
Dac am reprezenta graficul funciei eroare n raport cu triile sinaptice w
ji
ce
caracterizeaz reeaua neuronal, am obine o hiper-suprafa, numit suprafa eroare.
Putem ntlni dou cazuri distincte n studiul suprafeei eroare, i anume:
- dac reeaua neuronal este constituit doar din neuroni ce au ca funcie de activare
funcia liniar (2.1), atunci funcia eroare este o funcie cvadratic n raport cu triile
sinaptice, iar suprafaa eroare are un punct unic de minim.
- dac reeaua neuronal este constituit din neuroni ce au ca funcie de activare funcii
neliniare (2.2), (2.3), (2.4), (2.5), (2.6) atunci suprafaa eroare are un punct de minim
global i numeroase alte minime locale.
n oricare situaie, procesul de nvare sau de minimizare a funciei eroare const din
pornirea dintr-un punct arbitrar al suprafeei eroare (ce se obine din valorile de iniializare ale
triilor sinaptice ale reelei neuronale) i din deplasarea pas cu pas ctre punctul de minim
global. Evident, nu este posibil ca s atingem acest punct al suprafeei eroare n orice context,
deoarece procesul de deplasare se poate bloca n punctele de minim local.

III.2.2. nvare Hebbian

Denumirea de nvare Hebbian se datoreaz Postulatului lui Hebb, care n lucrarea
sa The Organization of Behaviour [94], emite una din cele mai faimoase ipoteze din
neuropsihologie:

"Cnd un axon al celulei nervoase A este suficient de aproape de faza de
excitare a unei celule nervoase B, i n mod repetat sau persistent ia parte la
activarea sa, un anumit proces de cretere sau de modificare metabolic are loc
ntr-una sau n ambele celule nervoase, astfel nct eficiena celulei nervoase A
este mrit din punct de vedere al contribuiei la activarea celulei B".
Pe baza acestui postulat, Hebb a propus un model celular de nvare asociativ, care
are ca rezultat o modificare de durat n activitatea unor "ansambluri de celule nervoase"
spaial distribuite. S nu uitm c postulatul lui Hebb este fcut ntr-un context neuro-
biologic. De aceea, vom ncerca s analizm i s interpretm acest postulat prin prisma
noastr de interes, i anume a calculului neuronal [188]:
51
- dac doi neuroni aflai de o parte i alta a unei sinapse sunt activai simultan
(sincron), atunci tria sinaptic se mrete;
- dac doi neuroni aflai de o parte i alta a unei sinapse sunt activai asincron
(un neuron activ i cellalt inactiv), atunci tria sinaptic se micoreaz sau este
eliminat.
Atunci, putem s definim ceea ce nseamn o legtur sinaptic privit din acest punct
de vedere [93], i pe care o numim sinaps Hebbian:
Def. 3.4: O sinaps Hebbian este o sinaps care utilizeaz un mecanism dependent
temporal, cu un puternic caracter local i interactiv, cu scopul de a mri tria sinaptic ca o
funcie de corelaie dintre activitatea presinaptic i postsinaptic.
Conceptul de nvare Hebbian poate fi generalizat dac lum n considerare c pe de
o parte o activitate pozitiv corelat produce mrirea triei sinaptice, i pe de alt parte c
activitatea necorelat sau negativ corelat produce micorarea triei sinaptice. Mergnd mai
departe, putem s clasificm modificrile sinaptice ca fiind [153]:
- modificri sinaptice Hebbiene;
- modificri sinaptice anti-Hebbiene;
- modificri sinaptice non-Hebbiene.
Formularea matematic general a postulatului lui Hebb, se face n felul urmtor:

( )
Aw f x y i n j m
ji i j

= = = , , , , , , , 1 1 (3.7)
unde f( , ) este o funcie de dou variabile, prima variabil reprezentnd activitatea
presinaptic

i
x , iar a doua variabil reprezentnd activitatea postsinaptic

i
y .

III.2.3. nvare competitiv

nvarea competitiv se bazeaz pe un proces concurenial ntre neuronii din stratul
de ieire, existnd un neuron "ctigtor", n detrimentul celorlali neuroni. Dac n ceilali
algoritmi de nvare prezentai pn acum, toi neuronii din stratul de ieire puteau genera
valori de ieire mai mari sau mai mici, n algoritmul de nvare competitiv, doar neuronul de
ieire "ctigtor" este activ (genereaz o valoare nenul), ceilali neuroni de ieire devenind
inactivi (genereaz valoarea zero).

Conform cu [173] exist trei elemente fundamentale ntr-un proces de nvare bazat
pe un algoritm de nvare competitiv:

- exist o mulime de neuroni identici, cu singura excepie a existenei unor trii
sinaptice distribuite aleator ntre neuroni, care vor provoca un rspuns distinct la o
mulime dat de stimuli de intrare;

- exist o limitare a triei sinaptice dintre oricare doi neuroni;
52

- exist un mecanism care permite competiia dintre neuroni, competiie ce are ca
rezultat faptul c doar un neuron (sau un grup de neuroni) este declarat ctigtor,
mecanismul permindu-i ctigtorului s devin activ, ceilali neuroni nvini
devenind inactivi.
S explicitm n cele ce urmeaz modelul general matematic al nvrii competitive.
n acest algoritm de nvare se consider c fiecrui neuron i se aloc o "cantitate
fix" de trie sinaptic. Pe aceast baz, avem relaia normalizat:
w j
ji
i

= = 1 1 , ,2,... (3.8)
Cnd un anumit neuron nva, nseamn c i va modifica starea, ncercnd s-i
apropie vectorul triei sinaptice w ctre vectorul de intrare x. Atunci, conform cu legea de
nvare competitiv standard avem relaia matematic:

( )


= A
nvins este neuronul dac , 0
este neuronul dac ,
j
j w x
w
ji i
ji
cstigtor q
(3.9)

III.2.4. nvare Boltzmann


Algoritmul de nvare Boltzmann are la baz o metod probabilistic derivat din
teoria termodinamicii i din teoria informaional [97]. Vom prezenta n cele ce urmeaz
elementele generale ale algoritmului de nvare Boltzmann.

O reea neuronal Boltzmann este constituit dintr-o structur neuronal recurent,
neuronii constitueni opernd ntr-o manier binar: fie sunt activi, starea lor fiind
reprezentat prin valoarea +1, fie sunt inactivi, starea lor fiind reprezentat prin valoarea -1.
Reeaua neuronal Boltzmann este caracterizat printr-o funcie energetic E, a crei valoare
este determinat de starea particular a fiecrui neuron individual aparinnd reelei
neuronale. Funcia energetic este definit astfel:

E w s s
ji j i
j i j i
=
=

1
2
,
(3.10)

unde s
i
reprezint starea neuronului i, s
j
reprezint starea neuronului j, iar w
ji
reprezint tria
sinaptic dintre neuronii i i j. Relaia i = j pune n eviden faptul c nici un neuron nu are
conexiune ctre el nsui.
Modul de operare al reelei neuronale Boltzmann:
- la un anumit pas din cadrul procesului de nvare se alege n mod aleator un neuron, fie
acesta neuronul j, i se modific starea acestuia:
s
j
- s
j
(3.11)
53
la o anumit "temperatur" T
1
ce caracterizeaz procesul de nvare, cu probabilitatea:

( )
P s s
e
j j E
T
j
=
+

1
1
A
(3.12)
unde AE
j
reprezint modificarea energetic a reelei neuronale ca urmare a transformrii
s
j
- s
j
.
- dac aceast regul se aplic repetat reeaua neuronal va atinge un punct de echilibru
termic.

Reeaua neuronal Boltzmann este constituit din dou tipuri de neuroni:
- neuroni vizibili - reprezint neuronii care interfaeaz reeaua neuronal cu mediul
nconjurtor n care opereaz;
- neuroni invizibili - care au un mod de operare liber.
Reeaua neuronal Boltzmann are dou moduri de operare:
- condiii impuse- toi neuronii vizibili sunt setai la o stare specific determinat de
mediul nconjurtor;
- condiii libere - toi neuronii, vizibili i invizibili sunt lsai s opereze liber.
Vom nota cu:
- c
ji
+
corelaia condiional dintre strile neuronilor i i j, aflai n condiii impuse;
- c
ji

corelaia necondiional dintre strile neuronilor i i j, aflai n condiii


libere.
Ambele corelaii c
ji
+
i c
ji

sunt luate ca medii ale tuturor strilor posibile ale reelei


neuronale, cnd aceasta se gsete n punctul de echilibru termic. Atunci putem s definim
matematic:
c P s s
ji j i
+ +
=
o| o|
| o
o|
(3.13)

c P s s
ji j i

=
o| o|
| o
o|
(3.14)
unde am notat:
- s
i o|
- starea neuronului i, dac neuronii vizibili se gsesc n starea o i neuronii
invizibili se gsesc n starea |;
- P
o|
+
- probabilitatea condiional ca neuronii vizibili s se gseasc n starea o iar
toi neuronii invizibili n starea |, dac reeaua neuronal este n modul de operare
impus;

1
T nu reprezint temperatura fizic, ci un parametru ce caracterizeaz starea reelei neuronale.
54
- P
o|

- probabilitatea condiional ca neuronii vizibili s se gseasc n starea o


iar toi neuronii invizibili n starea |, dac reeaua neuronal este n modul de
operare liber.
Atunci regula de nvare Boltzmann poate fi definit matematic astfel:

( )
Aw c c i j
ji ji ji
= =
+
q , (3.15)
parametrul q e R reprezint rata de nvare.

I I I .3. Paradigme de nvare

III.3.1. nvare supervizat

Modificarea triilor sinaptice este fcut pe baza comparaiei dintre vectorul de ieire
y

= ( , ,..., ) y y y
m 1 2
, = 1,....,P obinut la stratul de ieire i vectorul int
P z z z
m
,..., 1 ), ,..., , (
2 1
= =

z , ce reprezint rezultatul dorit a se obine la stratul de ieire,
cnd la stratul de intrare s-a prezentat vectorul de intrare P x x x
n
,..., 1 ), ,..., , (
1 0
= =

x din
mulimea de antrenament.
Vectorul int z

este furnizat de un profesor (antrenor-supervizor), de unde i


denumirea de nvare supervizat. nvarea supervizat presupune prezentarea de ctre un
antrenor a unor perechi de date de forma ( , ), ,..., x z

=1 P ce formeaz o mulime de date,
numit mulime de antrenament:

( ) { }
T P = = x z

, ,2, , 1 (3.16)
Diferena dintre rspunsul obinut y i rspunsul dorit z, reprezint eroarea i este
folosit pentru a modifica triile sinaptice, pe baza unui algoritm specific, numit lege de
nvare.
Putem reprezenta nvarea supervizat cu ajutorul urmtoarei diagrame [93]:










55










Fig. 3.2.: Diagrama nvrii supervizate.
Se observ din aceast diagrama echivalena paradigmei de nvare supervizat cu
algoritmul de nvare bazat pe minimizarea funciei eroare [16].

III.3.2. nvare nesupervizat


n cadrul nvrii nesupervizate nu exist profesor (antrenor) [64]. Reeaua neuronal
trebuie s fie n stare s descopere singur modele, trsturi, corelaii sau categorii n
mulimea datelor de intrare i s le codifice sub forma unor date de ieire [176], [177].
Neuronii i conexiunile reelei neuronale trebuie s reprezinte un anumit grad de auto-
organizare(self-organization).

nvarea nesupervizat poate fi utilizat doar atunci cnd n mulimea datelor de
intrare exist redundan. Fr redundan este imposibil de a descoperi vreun model (patern)
sau trstur n mulimea datelor de intrare. Din acest punct de vedere redundana asigur
cunoaterea [13].

n diagrama de mai jos este reprezentat paradigma nvrii nesupervizate:







Fig. 3.3.: Diagrama nvrii nesupervizate.

n cadrul nvrii nesupervizate nu avem la dispoziie exemple ale funciei ce trebuie
nvat de ctre reeaua neuronal. Mai degrab avem informaii despre o msur a calitii
reprezentrii la care trebuie s ajung reeaua neuronal prin procesul de nvare, iar
parametri acesteia vor fi optimizai n raport cu aceast msur. O dat ce procesul de nvare
s-a terminat i reeaua neuronal a fost acordat la trsturile statistice ale datelor de intrare,
Mediul
nconjurtor
Mediul
nconjurtor

Antrenor
Reea
neuronal
Reea
neuronal
E
y
z
e
56
ea va fi capabil s formeze reprezentri interne care s codifice trsturile datelor de intrare
i s creeze n mod automat noi clase.

Pentru ca o reea neuronal s poat efectua o nvare nesupervizat putem utiliza un
algoritm de nvare Hebbian sau un algoritm de nvare competitiv.

III.3.3. nvare ntrit (reinforcement)

nvarea ntrit poate fi definit ca fiind nvarea on-line a unei relaii de intrare-
ieire (input-output) prin intermediul unui proces de ncercri i erori desemnate s
maximizeze un index scalar de performan numit semnal de ntrire (reinforcement signal).
Ideea de nvare ntrit are la origine [140] studiile psihologice efectuate asupra nvrii
animalelor (dresaj).

Definiia care pare a fi cea mai potrivit a fost dat de Sutton [189] i de Barto [14]:

Def. 2.5: Dac n urma aciunii unei reele neuronale se obine o stare caracterizat ca fiind
pozitiv, atunci tendina reelei neuronale de a produce acelai rezultat va crete sau va fi
ntrit. Altfel, celelalte aciuni care au ca rezultat efecte negative vor descrete tendina
reelei neuronale de a produce acel rezultat.

Conform clasificrii lui Sutton [190] paradigma nvrii ntrite poate fi:

- nvare ntrit neasociativ - reeaua neuronal are rolul de a selecta o unic aciune
optimal, n loc de a face asocierea diferitelor aciuni cu diferii stimuli;

- nvare ntrit asociativ - mediul nconjurtor

- pune la dispoziie informaii adiionale, altele dect semnalul de ntrire, prin care o relaie
de forma stimul-aciune trebuie nvat.




















Fig. 3.4.: Diagrama nvrii ntrite.
Mediul
nconjurtor
r
Critic
Element de
nvare

Baz de
cunotine
Element de
prelucrare
Aciuni
ntrire primar
Sistem de nvare
ntrire euristic
57

n diagram, avem un element numit critic care are rolul de a transforma semnalele
primare de ntrire, recepionate de la mediul nconjurtor, ntr-un semnal de calitate numit
semnal euristic de ntrire. Ambele semnale de ntrire sunt codificate prin intermediul unor
scalari reali. Sistemul de nvare este constituit din cele trei componente normale pentru orice
sistem AI (Artificial Intelligence):

- elementul de nvare este responsabil de toate modificrile ce trebuie operate n baza de
cunotine;

- elementul de prelucrareeste responsabil de selectarea unor aciuni aleatoare pe baza unei
distribuii, care la rndul ei este determinat de cunotinele stocate n baza de cunotine
i de mediul nconjurtor de care aparine sistemul de nvare.

Pe baza stimulilor de intrare de la mediul nconjurtor i de la baza de cunotine,
elementul de prelucrare va determina relaia:

intrare distribuia relaiei aciunilor de ieire

Sistemul descris mai sus este capabil s nvee i n condiii de ntrire temporal,
adic, sistemul de nvare poate observa o secven temporal de stimuli de intrare care
genereaz semnalul de ntrire euristic.


I I I .4. Natura statistic a procesului de nvare


III.4.1. Generaliti


S considerm un fenomen descris printr-un vector x e R
n
ce reprezint o mulime de
variabile independente, i un scalar real
2
z e R ce reprezint o variabil dependent.
Elementele vectorului x pot fi considerate ca avnd interpretri fizice diferite [162].
S presupunem de asemenea, c avem o mulime de N msurtori (observaii) ale
variabilei x, i anume:

x
1
, x
2
, x
3
, ..., x
N
(3.17)

i o mulime corespunztoare de scalari z, notat:

z
1
, z
2
, z
3
, ..., z
N
(3.18)

n mod obinuit, nu posedm informaiile necesare despre relaia exact dintre
variabilele x i z. De aceea, vom nota aceast relaie astfel:


2
Pe baza unor observaii anterioare efectuate n Cap. II, am vzut c studiul unei reele neuronale cu m neuroni n stratul de
ieire poate fi redus la studiul a m reele neuronale cu un unic neuron n stratul de ieire. De aceea, nu reducem deloc
generalitatea cnd considerm c z e R , n loc de z e R
m
.
58
( ) z f = + x c (3.19)

unde f este o funcie de variabila x, iar c este eroarea reprezentat sub forma unei variabile
aleatoare. Eroarea c semnific eroarea pe care o facem n estimarea dependenei funcionale
dintre variabilele x i z. Ecuaia (3.19) de mai sus este un model statistic [93], numit model
regresiv, putnd fi reprezentat ca n figura de mai jos:











Fig. 3.5: Modelul statistic regresiv corespunztor ecuaiei (3.19).


Conform cu [205], putem defini funcia f a modelului regresiv ca fiind:

( )
| |
f E z x x = (3.20)

unde E este operatorul de medie statistic [67].
| |
E z x reprezint media condiional [21],
semnificnd faptul c vom obine, n medie, valoarea z, dac avem o realizare particular a lui
x. n particular, dac relaia funcional dintre variabilele x i z este cunoscut cu exactitate,
vom avea n modelul regresiv eroarea c = 0, ceea ce este un caz ideal ce nu se prea ntlnete
n practic.

S analizm proprietile modelului regresiv:

- Fiind dat o realizare a variabilei aleatoare x, valoarea medie a erorii c este nul,
adic:


| |
E c x = 0 (3.21)

- Eroarea c este necorelat cu funcia f(x), adic:

( )
| |
E f c x = 0 (3.22)

Ultima relaie este cunoscut n statistic sub numele de principiul ortogonalitii,
semnificaia sa fiind faptul c toate informaiile noastre despre variabila aleatoare x au fost
codificate n funcia de regresie f.
De fapt, esena acestui model este de a prediciona pe z pe baza lui x. Prin modelul
regresiv statistic am luat n considerare o interpretare pur matematic. S vedem cum se
ncadreaz n aceast interpretare calculul neuronal.

O reea neuronal reprezint de fapt un mecanism fizic pentru a implementa acest
obiectiv: predicionarea lui z pe baza lui x. Acest lucru se realizeaz prin codificarea
f(x)
E
x
c
z
59
informaiei coninut n mulimea de antrenament
( ) { }
T z i N
i i
= = x , ,2, , 1 n triile
sinaptice. Este evident interpretarea, din punct de vedere al calcului neuronal, dat celor
dou mrimi x i z: x reprezint vectorul (stimulul) de intrare n reeaua neuronal, iar z
reprezint valoarea int, dorit a se obine la stratul de ieire al reelei neuronale.
S notm cu w vectorul triilor sinaptice a reelei neuronale, care va avea rolul de a
aproxima modelul regresiv exprimat prin ecuaia (3.19) i reprezentat grafic n Fig. 3.5.
Conform cu notaiile introduse n capitolul anterior, vom nota cu y valoarea de ieire generat
de reeaua neuronal. Atunci, prin propagarea valorii de intrare x de la stratul de intrare ctre
stratul de ieire, unde obinem valoarea y, putem scrie corespondena:

( ) y F = x w , (3.23)

De asemenea, datorit faptului c mulimea de antrenament conine i vectori int,
care sunt furnizai de un antrenor, este evident analogia cu paradigma nvrii supervizate.
De aceea, modificarea vectorului triilor sinaptice se va face printr-un proces iterativ,
ca rspuns la semnalul eroare:

e z y = (3.24)

Dac ar fi s reprezentm grafic modelul regresiv (3.19), sub noua sa interpretare dat
de calculul neuronal, am obine diagrama de mai jos:











Fig. 3.6: Modelul corespunztor calculului neuronal.

Conform celor prezentate n III.3.1., modificarea vectorului triilor sinaptice, se face
folosind un algoritm de nvare de tip corecie a erorii MSE (3.3) sau (3.4). Putem atunci
scrie:

( )
| |
( )
| |
( ) ( )
| |
E w x w = = =
1
2
1
2
1
2
2
2 2
E e E z y E z F , (3.25)

Optimizarea reelei neuronale nseamn minimizarea funciei eroare. Pentru aceasta
relaia (3.25) devine:

( ) E w = ( ) ( ) ( ) ( )
| |
1
2
2
E z f f F + = x x x w ,

F(x,w)
E
x
e
z
y
60

( ) ( )
| |
( ) ( ) ( ) ( ) ( )
| |
( ) ( ) ( )
| |
( ) ( )
| |
( ) ( ) ( )
| |
= + +
+ = +
1
2
1
2
1
2
1
2
2
2 2 2
E z f E z f f F
E f F E z f E f F
x x x x w
x x w x x x w
,
, ,


(3.26)

n ecuaia de mai sus s-au folosit urmtoarele relaii:



( ) ( ) ( ) ( ) ( )
| |
( ) ( ) ( )
| |
( )
| | ( )
| |
E z f f F E f F
E f E F
= =
=
x x x w x x w
x x, w
, , c
c c
(3.27)


( )
| |
E F c = x, w 0 (3.28)

Deoarece primul termen al ecuaiei (3.26) depinde de vectorul triilor sinaptice w
0
,
care este vectorul care minimizeaz funcia eroare ( ) w E , rezult c acesta va minimiza de
asemenea i integrala:


( ) ( ) ( )
| |
( ) ( ) ( ) ( ) E f F g f F d
n
x x w x x x w x =
}
, ,
2 2
R
(3.29)

unde g(x) reprezint funcia de densitate probabilistic a lui x.

Putem concluziona c w
0
este vectorul triilor sinaptice care are proprietatea c
F(x, w
0
) este aproximarea MSE a funciei de medie condiional ( )
| |
f E z x x = . Aceasta
reprezint natura statistic a procesului de nvare, pus n eviden prin intermediul msurii
performanei MSE. Din relaiile (3.20) i (3.26) obinem:

( )
| | ( )
| |
E E z E z w x >
1
2
2
(3.30)

care ne arat c din toate funciile, modelul regresiv este cea mai bun estimare a rspunsului
dorit (int) z, dac se cunoate vectorul de intrare x. Termenul de "cea mai bun" trebuie
considerat n sensul optimizrii MSE.
Msura (performanele) mediului nconjurtor sunt reprezentate prin intermediul
funciei de densitate probabilistic g(x), avnd un rol determinant n determinarea vectorului
triilor sinaptice optim w
0
. O reea neuronal optimizat (antrenat) n acest fel va genera, n
medie, erori minime pentru valori ale vectorului de intrare x, care sunt cel mai probabil s fie
prezentate reelei neuronale [58]. De aceea, o reea neuronal ce are vectorul triilor sinaptice
w
0
nu va avea performane asemntoare ntr-un alt mediu nconjurtor, caracterizat printr-o
funcie de densitate probabilistic diferit de g(x).




61

III.4.2. Contradicia dintre varian i bias


Din paragraful anterior, am vzut c pe baza modelului regresiv, distana dintre funcia
de aproximat f(x) i funcia aproximant F(x,w) - reeaua neuronal, poate fi definit astfel:

( ) ( ) ( ) | |
( )
( )
f F E z F x x w x x w = , ,
2
2
(3.31)

Deoarece avem disponibile informaiile int (dorite a se obine la stratul de ieire al
reelei neuronale), am amintit deja despre necesitatea existenei n acest caz a unei paradigme
de nvare supervizate. De aceea, avem dreptul s introducem noiunea i notaia de mulime
de antrenament:

( ) { }
T z i N
i i
= = x , ,2, , 1 (3.32)

Informaia coninut n mulimea de antrenament va fi transferat, pe baza procesului
de minimizare a funciei eroare (3.26), triilor sinaptice w. n acest fel, funcia aproximant
F(x,w) (adic reeaua neuronal) este evident dependent de mulimea de antrenament T.
Pentru a pune clar n eviden aceast dependen vom nota funcia aproximant F(x,w) cu
F(x,w,T).

S notm operatorul de medie relativ la toate elementele mulimii de antrenament T,
cu E
T
. Atunci distana dintre funcia de aproximat ( )
| |
f E z x x = i funcia aproximant
F(x,w,T), se poate scrie:


| |
( )
( )
| |
| |
( )
| |
( )
| |
( )
( )
| |
( )
| | | | ( )
( ) ( )
| | ( )
| |
E E z F T
E E z E F T E F T F T
E F T E z E F T E F T
T
T T T
T T T
x x w
x x w x w x w
x w x x w x w
=
+ =
= +
, ,
, , , , , ,
, , , , , ,
2
2
2 2
(3.33)

S analizm relaia de mai sus. Observm ca distana dintre funcia de
aproximat ( )
| |
f E z x x = i funcia aproximant F(x,w,T) poate fi descris ca suma a doi
termeni:

- primul termen: ( )
| | | |
E F T E z
T
x w x , , reprezint Bias-ul aproximantei F(x,w,T),
msurat n raport cu funcia regresiv (de aproximat) ( )
| |
f E z x x = .

- media global ( ) ( )
| | ( )
| |
E F T E F T
T T
x w x w , , , ,
2
reprezint variana funciei
aproximante F(x,w,T).

Dac, funcia aproximant F(x,w,T) este, n medie, diferit de funcia de aproximat
( )
| |
f E z x x = , atunci spunem c avem de-a face cu un aproximator Bias a lui f(x).

Pe de alt parte, dac avem:
62

( )
| |
( ) E F T f
T
x w x , , = (3.34)

atunci spunem c avem un aproximator fr Bias a lui f(x).

O aproximant F(x,w,T) fr Bias a lui f(x) poate avea totui o eroare MSE mare, dac
variana aproximantei F(x,w,T) este mare. De aceea cele mai bune rezultate le putem obine
atunci cnd aproximanta F(x,w,T) (adic reeaua neuronal) are att Biasul, ct i variana
mic.

Din pcate, n aplicaiile practice, deoarece dimensionalitatea mulimii de antrenament
este finit, obinem un Bias mic cu preul unei variane mari. Doar n situaii teoretice, cnd
avem de-a face cu mulimi de antrenament infinit dimensionale, putem spera la un Bias i la o
varian mic.

Astfel, suntem pui n faa unei "contradicii", a crei efect l reprezint o slab
convergen a procesului de nvare.

Cum putem totui face fa acestei "contradicii" bias / varian ?

Soluia poate fi introducerea voluntar a bias-ului, ceea ce va avea ca efect reducerea
varianei. Evident trebuie s facem n aa fel nct introducerea bias-ului s nu "duneze"
reelei neuronale care are rolul de funcie aproximant. Pentru aceasta, trebuie s subliniem c
bias-ul nu este "duntor" doar dac contribuia sa la eroarea MSE este semnificativ doar n
acele regiuni care nu aparin clasei anticipate. Aceasta va presupune ns includerea bias-ului
n nsi arhitectura reelei neuronale, adic constrngerea arhitecturii reelei neuronale.
Aceast soluie va fi de fapt i strategia noastr ulterioar, n tentativa de a construi
reele neuronale cu performane deosebite din punct de vedere a teoriei aproximrii.



III.4.3. Modelul general al procesului de nvare



Din studiul statistic al procesului de nvare am vzut echivalena problemei
aproximrii unei funcii descrise cu ajutorul unei mulimi de antrenament
( ) { }
T i N
i i
= = x z , ,2, , 1 cu procesul de nvare al unei reele neuronale pe baza aceleai
mulimi de antrenament ( ) { }
T i N
i i
= = x z , ,2, , 1 . De asemenea, modelele de aproximare
prezentate corespundeau paradigmei de nvare supervizat. Conform cu [198], un model de
nvare supervizat are trei componente reprezentabile astfel:








63


















Fig. 3.7: Modelul Vapnik al nvrii supervizate.


Cele trei componente sunt:

- Mediul nconjurtor X - care transmite stimulul x e X, generat de o distribuie
probabilistic oarecare fixat P(x);

- Antrenorul - care furnizeaz rspunsurile int z
3
, ce se doresc a se obine la ieirea
reelei neuronale, pentru orice vector de intrare x, n concordan cu distribuia
probabilistic fix ( ) P z x . Vectorii x i z sunt legai prin relaie funcional
necunoscut f:

( ) z x = f (3.35)

- Reeaua neuronal F(x, w) - este capabil s implementeze relaia funcional dintre
x i z, descris prin relaia:

( ) y x w = F , (3.36)

Problema nvrii const n selectarea, pe baza unei mulimi de antrenament
( ) { }
T i N
i i
= = x z , ,2, , 1 cunoscut a priori, a funciei F(x,w) ce aproximeaz vectorul int
z, furnizat de antrenor. Selecia funciei F(x,w) se bazeaz deci, pe cele N elemente ale
mulimii de antrenament T, care sunt independent i identic distribuite.

Problema nvrii: Problema fundamental a nvrii supervizate este dac mulimea
de antrenament ( ) { }
T i N
i i
= = x z , ,2, , 1 conine suficiente informaii pentru a putea
construi o funcie aproximant F(x, w), deci o reea neuronal, capabil s nvee ct
mai bine datele de antrenament i n plus s aib capacitatea de generalizare.


3
Revenim la cazul general cnd vectorul int z este considerat un vector z e R
m
i nu un scalar.
Mediul
nconjurtor X
descris de
distribuia P(x)
Reea
neuronal:
w e W
Antrenor
(Profesor)
x
1
,x
2
,...,x
N

( ) { }
T i N
i i
= = x z , ,2, , 1

x
F(x,w) ~ z
64
Proprietatea de generalizare reprezint capabilitatea unei reele neuronale de a
rspunde la date de intrare ce nu au fcut parte din mulimea de antrenament. Este evident
faptul c scopul nvrii unei reele neuronale trebuie s fie obinerea unei bune capaciti de
generalizare. Generalizarea poate fi privit, dac considerm reeaua neuronal ca o aplicaie
ntre spaiul datelor de intrare i spaiul datelor de ieire (obinute la stratul de ieire), ca fiind
abilitatea de interpolare a aplicaiei respective [186].
S presupunem c dup ce o reea neuronal a efectuat faza de nvare, dorim s
extragem o lege care s defineasc comportamentul ei. Vom reprezenta schematic modul de
extragere a unei legi n Fig.3.8.
















Fig.3.8.: Reprezentarea schematic a modului de extragere a unei legi (dup [40]).

S explicm schema din figura de mai sus. X reprezint spaiul tuturor datelor de
intrare, perechi de forma (vectori de intrare, vectori int), date ce sunt consistente cu o
anumit lege R. n procesul de nvare, o submulime a legii R, notat T, i care reprezint
mulimea de antrenament, este folosit pentru a nva o reea neuronal. Dup ce procesul de
nvare s-a terminat, testm capacitatea de generalizare a reelei, cu ajutorul unei submulimi
G c R, disjunct de T.

Putem deci concluziona c performanele reelei neuronale, relative la submulimea
T c R, reprezint capacitatea de memorare a reelei, iar performanele relative la submulimea
G c R, reprezint capacitatea de generalizare a reelei neuronale. De obicei T i G sunt alese
aleator din mulimea R, ambele fiind generate de aceeai lege de distribuie.

De fapt, n procesul de nvare, reeaua neuronal nva doar elementele sub-
mulimii T, fr a ti nimic despre G i R. De aceea, este natural ca aceast reea neuronal,
s fie capabil de a generaliza orice mulime de date de intrare care este consistent cu T.
Acest lucru este reprezentat n Fig.3.9.












X
T
G
R
65














Fig.3.9: Reprezentarea schematic a capacitii de generalizare a unei reele neuronale (dup [40]).


Problema generalizrii poate fi ngreunat dac saturm procesul de nvare a reelei
neuronale printr-un numr prea mare de date de antrenament. n aceast situaie capacitatea de
generalizare a reelei neuronale este slab. Ca un exemplu, n Fig.3.10. se prezint problema
generalizrii datorit suprasaturrii procesului de nvare, privit prin prisma interpolrii
datelor de antrenament.


Fig.3.10. :Reprezentarea schematic a problemei generalizrii, unde avem:
o - date de antrenament; - - date pentru generalizare; (a) nvare reuit, generalizare
bun; (b) nvare saturat, generalizare slab.

Aceste elemente referitoare la capacitatea de generalizare a reelei neuronale,
sugereaz posibilitatea de a cuantifica estimativ capacitatea reelei neuronale de a generaliza,
n funcie de arhitectura sa i de dimensiunea mulimii de antrenament. Pentru aceasta, vom
selecta din numeroasele posibiliti de cuantificare a generalizrii, urmtoarele [96]:

- Numrul mediu de posibiliti de generalizare n raport cu o mulime de
antrenament.

- Probabilitatea ca reeaua neuronal antrenat s genereze, n medie, rspunsuri
corecte pentru date de intrare alese aleator din spaiul datelor de intrare.

- Probabilitatea ca reeaua neuronal antrenat s genereze, n medie, rspunsuri
incorecte pentru date de intrare alese aleator din spaiul datelor de intrare.

(a) (b)


U
G2
G3
G1
T
66
Rspunsul la Problema nvrii poate fi obinut dac privim aceast problem prin
prisma teoriei aproximrii, adic studiem nvarea unei reele neuronale ca o
problem de aproximare: s gsim funcia F(x,w) care aproximeaz cel mai bine
funcia dorit f(x) [196] .

S notm cu d eroarea dintre vectorul int z, ce se dorete a se obine pentru vectorul
de intrare x, i rspunsul generat de reeaua neuronal, exprimat prin funcia aproximant
F(x,w). Definim aceast eroare cu ajutorul distanei Euclidiene:

( ) ( ) ( ) d F F z x w z x w ; , , =
2
(3.37)

Vom defini funcionala risc [196] ca fiind media erorii definite mai sus:

( ) ( ) ( ) ( ) R d F dP w z x w x z =
}
; , , (3.38)

Integrala de mai sus este considerat n sens Riemann-Stieljes, iar P(x,z) reprezint
distribuia probabilistic a vectorului de intrare x i a vectorului int z.

n noua formulare, Problema nvrii devine Problema minimizrii:

Problema minimizrii: S se minimizeze funcionala risc (3.38) n raport cu
clasa de funcii aproximante F(x,w), cnd w e W.

Problema minimizrii este complicat [93] datorit faptului c distribuia
probabilistic P(x,z) este necunoscut, dup cum se vede i din relaia de mai jos:

( ) P( ) P( )P x, z = z, x x (3.39)

Singura informaie disponibil este cea coninut n mulimea de antrenament
( ) { }
T i N
i i
= = x z , ,2, , 1 . De aceea, vom face apel la principiul inductiv al minimizrii
riscului empiric dezvoltat de Vapnik [197].

Ideea fundamental a principiul inductiv al minimizrii riscului empiric este de a
utiliza un set independent de date de antrenament ( ) { }
T i N
i i
= = x z , ,2, , 1 pentru funcia
aproximant F(x,w), cu scopul de a defini funcionala risc empiric:


( ) ( ) ( )
R
N
d F
emp i i
i
N
w z x w =
=

1
1
; , (3.40)

Funcionala risc empiric nu mai este n acest moment dependent de distribuia
probabilistic P(x,z). Teoretic, la fel ca i funcionala risc R(w) (3.38), funcionala risc
empiric R
emp
(w) (3.40) poate fi minimizat n raport cu parametrul w, care corespunde triilor
sinaptice ale reelei neuronale.

S facem notaiile:

- w
emp
- vectorul triilor sinaptice care minimizeaz funcionala risc empiric R
emp
(w);

67
- F(x,w
emp
) - funcia aproximant (reeaua neuronal) corespunztoare lui w
emp
;

- w
0
- vectorul triilor sinaptice care minimizeaz funcionala risc R(w);

- F(x,w
0
) - funcia aproximant (reeaua neuronal) corespunztoare lui w
0
.

Problema nvrii, respectiv problema minimizrii devine n aceast abordare:

n ce condiii funcia aproximant F(x,w
emp
) este "suficient de aproape" de
aproximant dorit F(x,w
0
) ? Condiia de apropiere va fi msurat prin diferena
dintre riscul empiric R
emp
(w) i riscul R(w).

Pentru orice valoare fixat w* a vectorului triilor sinaptice, funcionala risc R(w*)
determin media urmtoarei variabile aleatoare:


( ) ( )
A d F
w
z x w
-
=
-
; , (3.41)

Pe de alt parte, funcionala risc empiric R
emp
(w*) reprezint media aritmetic a
variabilei aleatoare A
w
-
. Pe baza unor elemente clasice de teoria probabilitilor, dac
dimensionalitatea mulimii de antrenament ( ) { }
T i N
i i
= = x z , ,2, , 1 tinde la infinit, atunci
media aritmetic a variabilei aleatoare A
w
-
va converge ctre media sa. Aceast remarc ne d
dreptul, din punct de vedere teoretic, s utilizm n locul funcionalei risc R(w), funcionala
risc empiric R
emp
(w).
Dar nu trebuie s ne ateptm ca vectorul triilor sinaptice ce minimizeaz funcionala
risc empiric R
emp
(w) s minimizeze de asemenea i funcionala risc R(w).

Pentru aceasta vom aplica principiul minimizrii riscului empiric [197] , formulat
astfel:

- n locul funcionalei risc R(w) vom construi funcionala risc empiric R
emp
(w) conform
formulei (3.40), utiliznd mulimea dat de antrenament ( ) { }
T i N
i i
= = x z , ,2, , 1 ;

- fie w
emp
vectorul triilor sinaptice care minimizeaz funcionala risc R(w) relativ la
spaiul triilor sinaptice W. Dac dimensionalitatea N a mulimii de antrenament tinde la
infinit i dac funcionala risc empiric R
emp
(w) va converge uniform ctre funcionala risc
R(w), atunci funcionala risc empiric R
emp
(w) va converge n probabilitate ctre cea mai
mic valoare posibil a funcionalei risc R(w), w e W. Uniform convergena se definete
astfel:

( ) ( ) Prob sup ,
w W
w w
e
>


`
)
R R dac N
emp
c 0 (3.42)

Ultima relaie reprezint condiia necesar i suficient pentru valabilitatea principiul
minimizrii riscului empiric.



68
III.4.4. Capacitatea de generalizare


Vom urma o idee prezentat n [96], pentru a studia prin prisma acestor elemente,
capacitatea de generalizare a unei reele neuronale.

Fie o mulime de reele neuronale cu o arhitectur dat fixat, specificat prin numrul
de straturi, numrul de neuroni din fiecare strat, conexiuni sinaptice, funcii de activare.
Fiecrei reele neuronale i corespunde o mulime de trii sinaptice, pe care o vom nota w. O
mulime de trii sinaptice w poate fi interpretat ca un punct n spaiul triilor sinaptice
posibile, spaiu pe care-l vom numi tot spaiul triilor sinaptice W.

Cnd vom considera media n raport cu mulimea reelelor neuronale, ea va reprezenta
media n raport cu spaiul triilor sinaptice, medie calculat n raport cu o densitate
probabilistic a priori, notat (w).

Putem defini volumul disponibil V
0
al spaiului triilor sinaptice:

V d
0
=
}
w w ( ) (3.43)

Orice punct w din spaiul triilor sinaptice, reprezint o reea neuronal ce
implementeaz funcia F(x,w), funcie corespunztoare valorilor generate de neuronii din
stratul de ieire, cnd la stratul de intrare se prezint vectorul de intrare x. Astfel, spaiul
triilor sinaptice este partiionat ntr-o mulime de submulimi disjuncte, cte una pentru
fiecare funcie f(x), pe care mulimea de reele neuronale o poate implementa.

Volumul subspaiului care implementeaz o funcie particular f este:

V f d
f 0
( ) ( ) ( ) =
}
w w w u (3.44)


unde: u
f
F f
altfel
( )
, ( ) ( ), ( )
,
w
x w x X
=
= e

1
0
, x
(3.45)

Fracia din spaiul triilor sinaptice, care implementeaz o funcie dat f, sau
probabilitatea de a obine funcia f, cnd alegem trii sinaptice aleatoare, conform distribuiei
(w) este:

R f
V f
V
0
0
0
( )
( )
= (3.46)

nsumnd n raport cu mulimea tuturor funciilor, putem defini entropia
informaional:


S R f R f
f
0 0 2 0
=

( ) log ( ) (3.47)

69
S
0
reprezint diversitatea funcional a arhitecturii reelelor neuronale. Dac S
0
are o valoare
mare, avem nevoie de mai mult informaie pentru a specifica o funcie particular. n cazul n
care avem K funcii posibile, de volum egal V
0
(f), obinem:

e
=
altfel
egal volum de functii celor dac
, 0
,
1
) (
0
K f
K
f V (3.48)


Atunci obinem: S K
0 2
= log sau 2
0
S
K = (3.49)

S considerm o paradigm de nvare supervizat, n care se prezint perechi de date
( , ) x z
i i
, ce corespund unei aplicaii int:

z x
i i
f i N = = ( ), , , 1 (3.50)

Presupunnd c reeaua neuronal a nvat cu succes (funcia eroare converge ctre
zero), punctul w ce corespunde acestei reele neuronal, va fi localizat ntr-un subspaiu al
triilor sinaptice ce este compatibil cu datele de antrenament ( , ) x z
i i
. Presupunnd c
mulimea de antrenament conine N perechi de date ( , ) x z
i i
, atunci volumul subspaiului
rmas este:

V d I F
N
i
N
i
=
=
[
}
w w x ( ) ( , )
1
(3.51)


unde: I F
F f
altfel
i
i i
( , )
, ( , ) ( )
,
x
x w x
=
=

1
0
(3.52)

V
N
va conine subspaiul corespunztor funciei int f , mpreun cu alte subspaii
corespunztoare altor funcii ce coincid cu f pe mulimea datelor de antrenament. Evident, cu
ct N este mai mare, mulimea funciilor ce coincid cu f pe mulimea datelor de antrenament
este mai mic. De aici rezult c procesul de nvare poate fi privit ca un proces de reducere
continu a spaiului admisibil al triilor sinaptice, adic:

V V V V
N 0 1 2
> > > > ... (3.53)

Partea din spaiul triilor sinaptice ce corespunde unei funcii particulare f, se modific
dup nvarea a N exemple, de la R
0
(f) (3.46) la:

R f
V f
V
N
N
N
( )
( )
= (3.54)

V
N
(f) reprezint volumul spaiului triilor sinaptice consistent att cu funcia f, ct i cu
exemplele de nvat ( , ) x z
i i
. Avem:

70
V f d I F V f I F
N f
i
i
i
i
( ) ( ) ( ) ( , ) ( ) ( , ) = =
}
[ [
= =
w w w x x
P P
u
1
0
1
(3.55)

Entropia corespunztoare este:


S R f R f
N P
f
N
=

( ) log ( )
2
(3.56)

S
N
reprezint o msur a numrului de funcii implementabile, ce sunt compatibile cu
mulimea de antrenament.
S
N
- S
N-1
reprezint cantitatea de informaie obinut prin nvarea datei x
N.
Dac
nvarea s-a desfurat cu succes, obinem:

S
N
= S
0
- N (3.57)

n acest fel putem s ne gndim la o limit a numrului necesar de date de antrenament
pentru a nva o aplicaie particular f sau putem s ne gndim la estimarea eficienei
procesului de nvare [40].

Utilizarea factorului I f
i
( , ) x n relaia (3.55) introduce o discriminare puternic ntre
triile sinaptice consistente sau inconsistente cu data de antrenament x
i
. De aceea, mai ales
atunci cnd mulimea valorilor de ieire este o submulime a lui R (mulimea numerelor reale
- ceea ce nseamn c avem o funcie de activare liniar sau sigmoidal sau tangenta
hiprbolic), trebuie s relaxm aceast discriminare.
Acest lucru se poate face nlocuind factorul I f
i
( , ) x cu un factor neted, i anume
e
|c

, unde | reprezint parametrul ce controleaz descreterea funciei exponeniale de mai


sus de la valoarea 1, unde nu exist eroare, la valoarea 0, unde exist erori mari, iar c


reprezint eroarea generat la stratul de ieire de data de antrenament x
i
.

S presupunem c avem o mulime de antrenament x
1
, x
2
,..., x
N
aleas aleator cu
ajutorul unei distribuii P(x), fiecare x
i
, i=1,,N fiind independent.

Atunci, fiecare factor I f
i
( , ) x este independent de ceilali, ceea ce ne permite s
considerm o medie n raport cu mulimea tuturor datelor de antrenament. Vom folosi pentru
aceast medie notaia <.>, obinnd:

V f V f I f V f g f
N i
N
N
( ) ( ) ( , ) ( ) ( ) = =
=
[ 0
1
0
x

(3.58)

Media este relativ la x
1
, x
2
,..., x
N
, cu triile sinaptice corespunztoare P(x
i
), i avem:

g f I f f f ( ) ( , ) ( ( ) ( )) = = = x x x Prob (3.59)

reprezentnd:

- probabilitatea ca o funcie particular f s fie egal cu funcia int f n punctul x,
punct ales aleator de distribuia P(x);
71
- g(f) se numete abilitatea de generalizare a lui f, specificnd de fapt ct de mult f
se apropie de f . g(f) e [0,1] fiind independent de mulimea de antrenament.

S notm cu P
N
(f) probabilitatea ca o funcie f s implementeze, dup nvarea a N
exemple de antrenament, funcia int f . Atunci:

P f
V f
V
V f
V
N
N
N
P
P
( )
( ) ( )
= ~ (3.60)

Aproximarea de mai sus se bazeaz pe ipotez c V
N
nu variaz mult n raport cu o
mulime de antrenament, deci V V
N N
~ pentru orice mulime de antrenament.

Cu ajutorul formulei (3.60) putem calcula distribuia abilitii de generalizare n raport
cu toate funciile posibile f:



o o
o
N N
f
N
f
N
f
N
g P f g g f V f g g f
g V f g g f g g
( ) ( ) ( ( )) ( ) ( ( ))
( ) ( ( )) ( )
=
=

0 0
(3.61)

Prin normalizare obinem:


N
N
N
g
g g
g g dg
( )
( )
( ) ( )
* * *
=

}
0
0
(3.62)

Deoarece distribuia iniial o
0 0
1
0
( ) ( ) ( ( )) g V V f g g f
f
=

depinde doar de
arhitectura reelei neuronale i de restricia a priori ncorporat n (w), rezult din (3.62)
urmtorul rezultat remarcabil:

Putem calcula distribuia
P
(w) dup N exemple de antrenament, dac
cunoatem distribuia abilitii de generalizare, nainte de faza de nvare.

Putem s considerm i valoarea medie a abilitii de generalizare:

G N g g dg
g g dg
g g dg
N
N
N
( ) ( )
( )
( )
= =
}
}
}
+

0
1
1
0
0
1
0
0
1
(3.63)


Reprezentnd grafic G(N) n raport cu N-numrul de date de antrenament, obinem
curba de nvare. G(N) poate fi folosit pentru a determina N n scopul nvrii reelei
neuronale la un nivel corespunztor de performan.

Comportamentul asimptotic a lui
N
(g) i deci i a lui G(N), cnd N , este
determinat de forma distribuiei iniiale
0
(g) n jurul punctului g = 1. Avem dou posibiliti:

72
- Exist o tranziie abrupt de lungime c ntre g = 1 i urmtoarea valoare g = g
0
, pentru
care
0
(g
0
). Atunci avem:

1

G N e
N
( )
c
(3.64)

- Dac nu exist tranziii abrupte la
0
(g), atunci avem:

1
1
G N
N
( ) (3.65)

Aceste rezultate deosebite prezentate n acest paragraf au o mare importan teoretic:

Putem calcula media probabilistic a abilitii de generalizare corect, cnd
reeaua neuronal a fost antrenat utiliznd o mulime de antrenament cu N
elemente, dac cunoatem n principiu o funcie ce poate fi calculat nainte de
nceperea fazei de antrenare.

Practic ns e dificil s exploatm aceste rezultate, deoarece un calcul analitic al
distribuiei a priori
0
(g) este posibil doar pentru probleme simple.

De asemenea, utilizarea abilitii de generalizare medie, n raport cu subspaiile
spaiului triilor sinaptice, consistente cu mulimea de antrenament, nu este foarte potrivit,
deoarece n practic legea de nvare poate favoriza unele subspaii n raport cu altele. n
fond, o procedur de nvare reprezint un drum n spaiul triilor sinaptice, drum ce
reprezint ajustarea gradual a triilor sinaptice cu scopul minimizrii funciei eroare i nu o
alegere aleatoare a triilor sinaptice restricionate de mulimea de antrenament. Densitatea
probabilistic iniial (w) ncorporeaz ntr-un fel acest efect, dar nu n totalitate. De aceea,
vom ncerca s studiem abilitatea de generalizare n cel mai ru caz i nu n cel mediu.

Pentru a simplifica analiza noastr, vom considera problema clasificrii binare, care
corespunde unei reele neuronale ce are n stratul de ieire un singur neuron cu funcie de
activare sgn(x).
Ne intereseaz g(f) pentru funcia f pe care o implementeaz reeaua neuronal, pentru
a ti ct de bine aproximeaz funcia f, funcia int f .

S considerm o mulime de antrenament, constituit din P perechi de puncte ( , ) x z
i i
,
i = 1,,N, cu z x
i i
f i N = = ( ), , , 1 .
Fie g F
N
( ) numrul de mulimi de antrenament, de dimensionalitate N, corect
clasificate de funcia F(,w), implementat de reeaua neuronal. Scopul legii de nvare este
de a ajusta triile sinaptice, astfel nct s maximizm g F
N
( ) , adic g F
N
( ) = 1, n condiiile
unei nvri perfecte.

Diferena dintre g(f) i g f
N
( ) este datorat faptului c g(f) reprezint ct de bine
aproximeaz funcia f funcia int f , n timp ce g f
N
( ) reprezint ct de bine aproximeaz
funcia f funcia int f , ca o medie relativ la o mulime de antrenament cu N elemente.

Cu alte cuvinte g f
N
( ) reprezint o aproximant a lui g(f) , n condiii ideale:
73

N f g f g
N
), ( ) ( (3.66)

n practic ns, avem relaia:

g F g f
N
( ) ( ) > (3.67)

pentru funcia F(,w) obinut ca urmare a procesului de nvare.

Dac ns vom considera o funcie arbitrar f din mulimea funciilor pe care reeaua
neuronal le poate implementa i o funcie F(,w) asociat mulimii de antrenament, vom fi n
stare s estimm ct de proast poat fi aproximarea funciei int f de ctre f, n cel mai
ru caz. Cum acest cel mai ru caz este aplicabil oricrei funcii f implementabile de
reeaua neuronal, obinem rezultatul:

Prob(max ( ) ( ) ) ( ) g f g f m N e
N
N
> s


c
c
4 2
2
8
(3.68)

unde m(N) este o funcie ce depinde de dimensionalitatea N a mulimii de antrenament, fiind
numit funcie de cretere i reprezint numrul maxim de funcii diferite (binare n cazul
nostru) care pot fi implementate de reeaua neuronal pe baza unei mulimi de antrenament cu
N elemente.

Foarte importanta relaie (3.68) a fost obinut de Vapnik i Chervonenkis [196].
Membrul stng al relaiei de mai sus reprezint probabilitatea ca cea mai slab aproximare s
depeasc o limit c, pentru orice funcie implementabil de ctre reeaua neuronal.
Dac de exemplu c = 0.01, vom ti cu probabilitatea de 99% c g f
N
( ) i g(f) sunt la
distana de cel mult c una de alta, pentru orice funcie f implementabil de reeaua neuronal.

Dac procesul de nvare s-a desfurat cu succes, obinnd un rezultat perfect, adic
g F
N
( ) = 1, atunci vom ti cu o probabilitate foarte mare c:

g( f
w
) > 1 - c (3.69)

Dac funcia de activare este funcia sgn(x) sau funcia treapt, avem un numr total de
2
N
funcii binare diferite, deci, n general:

m(N) s 2
N
(3.70)

Limitrile funciei de cretere pot fi generate i de arhitectura reelei neuronale. De
exemplu dac triile sinaptice pot lua valori doar ntr-o mulime de valori cu k valori distincte,
atunci:

m(N) s k
|w|
(3.71)

unde |w| reprezint numrul total de conexiuni sinaptice ale reelei neuronale.
Vapnik i Chervonenkis au demonstrat c forma funciei de cretere este ntotdeauna
ca cea din Fig.3.11.

74



















Fig.3.11.: Graficul funciei de cretere m(N) (Conform [196]).


Astfel m(N) = 2
N
pentru N s d
VC
i m(N) ~ constant pentru N > d
VC
.

Punctul d
VC
se numete dimensiunea Vapnik-Chervonenkis, sau mai simplu
dimensiunea VC.

n situaia cnd dimensiunea VC este finit, ea verific inegalitatea:

m N N
d
VC
( ) s +1 (3.72)























d
VC

P
log
2
m
75
IV. Perceptroni

I V.1. Perceptronul simplu

Perceptronul simplu reprezint unul din primele modele de calcul neuronal construite,
fiind de departe cea mai studiat i analizat reea neuronal. De aceea, interesul de a studia
perceptronul simplu nu este numai de factur istoric ci i tiinific, proprietile sale putnd
fi regsite la orice reea neuronal. Perceptronul simplu nv cu ajutorul unei legi de nvare
supervizate. Arhitectura perceptronului simplu const din stratul de intrare i stratul de ieire,
neexistnd straturi ascunse.
Vom studia diferite tipuri de perceptroni simpli, legea de nvare, capacitatea de
generalizare i capacitatea de stocare a informaiilor.
Vom folosi n cele ce urmeaz notaia prescurtat PS pentru perceptronul simplu.

IV.1.1. Modul de operare al PS

n Fig. 4.1. avem un exemplu de PS, cu n neuroni n stratul de intrare (eventual n + 1
dac termenul Bias este explicit reprezentat, vezi Obs.2.1) i m neuroni n stratul de ieire.


















Fig. 4.1.: PS cu n neuroni (+1 termen Bias - opional) i m neuroni n stratul de ieire.

Modul de operare al PS:
Integrare: I w x j m
j ji
i
n
i
= =
=

0
1 , , ..., (4.1)
Activare: y f w x j m
j ji
i
n
i
= =
=

( ), , ...,
0
1 (4.2)

x
0
x
1
x
2
x
i
x
n
y
1
y
j
y
m
Bias

76
Legea de nvare supervizat a PS:

Faza de nvare const din prezentarea PS a unor perechi de date
P , , 1 ), , ( =

z x dintr-o mulime de antrenament cu P elemente.
- x

= = ( , ,..., ), ,..., x x x P
n 0 1
1 , reprezint mulimea vectorilor de intrare;
- z

= = ( , ,..., ), ,..., z z z P
m 1 2
1 reprezint mulimea vectorilor int;
- y

= = ( , ,..., ), ,..., y y y P
m 1 2
1 reprezint mulimea vectorilor de ieire care se
obin la stratul de ieire, ca rezultat la prezentarea vectorului de intrare
x

, ,..., =1 P la stratul de intrare.



Scopul fazei de nvare este minimizarea diferenelor:
y z j m P
j j

= = , ,..., , ,..., 1 1 (4.3)
nvarea optim reprezentnd urmtoarea relaie:
y z j m P
j j

= = = , ,..., , ,..., 1 1 sau (4.4)
z f w x j m P
j ji
i
n
i

= = =
=

( ), , ..., , , ...,
0
1 1 (4.5)

IV.1.2. PS cu funcie de activare f(x) =sgn(x)

Vom considera la nceput cel mai simplu caz, cel al perceptronului deterministic, cu
funcia de activare f(x)=sgn(x), cu mulimea de valori pentru vectorii de intrare i vectorii
int {-1,+1}.
n scriere vectorial relaia (4.5) devine:
z w x

= = sgn( ), ,..., 1 P (4.6)
Interpretarea acestei relaii: Procesul de nvare trebuie s determine mulimea
triilor sinaptice w n aa fel nct orice vector de intrare x

s aib proiecia pe vectorul


triilor sinaptice w de semn egal cu vectorul int z

. Frontiera dintre regiunile spaiului n +1


dimensional (sau n dimensional dac nu explicitm termenul Bias), pentru care vectorul de
intrare x

are proiecie negativ sau pozitiv pe vectorul w, este un hiperplan de ecuaie:


w x = 0 (4.7)
Acest hiperplan trece prin originea sistemului de axe i este perpendicular pe vectorul
triilor sinaptice w. Condiia ca PS s nvee corect este ca hiperplanul (4.7) s divid vectorii
de intrare x

n dou clase corespunznd la vectori int z

= 1 sau z

= +1.

77
I V.1.2.1. Liniar separabilitatea

Din cele menionate mai nainte, rezult c PS poate nva cu succes o anumit
problem dac aceasta este liniar separabil, adic dac exist un hiperplan n spaiul datelor
de intrare care s separe vectorii (punctele de intrare) x

dup criteriul:
x

e Semiplan
1
z

= 1
x

e Semiplan
2
z

= +1

Un astfel de hiperplan trebuie gsit pentru fiecare neuron de ieire. n caz contrar
problema este nerezolvabil cu ajutorul PS.

n scriere vectorial relaia (4.2) poate fi rescris astfel:

y w x = sgn( ) w
0
(4.8)

Condiia ca PS s poat nva problema formulat cu mulimea datelor de
antrenament P , , 1 ), , ( =

z x este ca n spaiul n-dimensional al datelor de intrare
( , ,..., ) x x x
n 1 2
regiunile corespunztoare valorilor z

= +1 i z

= 1 s fie separate de un
hiperplan n-1 dimensional, de ecuaie:

w x = w
0
(4.9)

Exemplul 4.1. S considerm problema AND (I LOGIC), dat prin tabela de adevr:

x
1
x
2
z
0 0 -1
0 1 -1
1 0 -1
1 1 +1

n Fig. 4.2. avem reprezentarea geometric a problemei AND i un exemplu de PS
care o rezolv.
Dac considerm din nou aceeai problem AND, reprezentnd implicit termenul
Bias, obinem reprezentarea geometric din Fig.4.3.

Fig. 4.2: (a) Reprezentarea geometric a problemei AND, soluia fiind dat de hiperplanul (dreapta) ce
separ punctele de intrare n planul ( , ) x x
1 2
; (b) Un exemplu de PS ce implementeaz funcia
AND.

x
1

x
2

(0,1)
(1,1)
(1,0) (0,0)
w
(a) (b)
x
0
=-1 x
1
x
2

y
1

1.5
1
1

78

x1
x2
x3
w

Fig 4.3.: Reprezentarea geometric a problemei AND, termenul Bias fiind reprezentat explicit, ca
o nou dimensiune a spaiului de intrare. Vectorul triilor sinaptice w = (1.5, 1, 1) este
perpendicular pe planul ce separ punctele de intrare i trece prin origine.

Exemplul 4.2.: S considerm problema XOR (SAU EXCLUSIV), dat prin tabela de adevr:

x
1
x
2
z
0 0 -1
0 1 +1
1 0 +1
1 1 -1

Aplicnd relaia (4.10) pentru problema XOR, obinem sistemul:

w w w
w w w
w w w
w w w
1 2 0
1 2 0
1 2 0
1 2 0
0
0
0
0
+ <
<
>
+ >



Combinnd inecuaiile 1 i 4 obinem w
1
0 < , iar din inecuaiile 2 i 3 obinem w
1
0 > ,
ceea ce evident este imposibil. n Fig. 4.4. se observ c nu putem duce un hiperplan (dreapt)
care s separe punctele (vectorii) de intrare corespunztoare vectorilor int z

= +1 i
z

= 1.
Problema XOR este un exemplu clasic de problem care nu este liniar separabil,
lucru pus n eviden de Minsky i Papert n [145], deci nu poate fi implementat cu un PS,
indiferent ce fel de lege de nvare folosim.

79




















Fig.4.4.: Reprezentarea geometric a problemei XOR.



I V.1.2.2. Legea de nvare


Vom considera n cele ce urmeaz probleme liniar separabile, ncercnd s construim
un algoritm de determinare a triilor sinaptice. Cea mai simpl alegere este bazat pe legea lui
Hebb [94] care specific faptul c o legtur sinaptic este ntrit atunci cnd att semnalul
pre-sinaptic, ct i post-sinaptic sunt mari. Conform acestei legi vom considera o modificare a
triilor sinaptice proporional cu produsul dintre valoarea pre-sinaptic i post-sinaptic,
adic n cazul nostru:

w w w j m k n
jk jk jk
= + = = A , , , , , , 1 0 (4.10)
Aw
z x z y
altfel
j m k n
jk
j k j j
=
=

= =

2
0
1 0
q

,
,
, , , , , , (4.11)

sau:
Aw z y x j m k n
jk j j k
= = = q

( ) , , , , , , 1 0 (4.12)

R e q se numete rata de nvare, controlnd mrimea ajustrii sinaptice. De obicei se
consider q e( , ) 01 .


I V.1.2.3. Convergena legii de nvare

Vom presupune c avem de-a face cu o problem rezolvabil, adic liniar separabil,
pentru care exist un PS care s o implementeze. Vom demonstra c legea de nvare (4.12)
va genera soluia corect, adic va determina vectorul w al triilor sinaptice, ntr-un numr
finit de pai. Demonstraia se bazeaz pe ideile cuprinse n [6].



(0,0) (1,0)
(0,1)
(1,1)
x
2

x
1


80
Demonstraie:

Fiecare pas al procesului de nvare comport prezentarea unui vector de intrare u

,
triile sinaptice fiind modificate conform relaiei (4.12). Uneori putem avea Aw
ik
= 0, cnd
relaia (4.4) este satisfcut.
Fie M

numrul care exprim de cte ori vectorul

x a generat modificri ale triilor


sinaptice, adic 0 = Aw n cadrul procesului de nvare. Atunci folosind o scriere matricial
avem:

q u =

M W (4.13)
presupunnd c la Pasul 0 am avut toate triile sinaptice iniializate cu zero.
Fie M M =

numrul total al pailor efectuai n cadrul procesului de nvare i


( )

x w
w
w = min
1
D [96].
Avem:

| | ) ( min
- - - - -
= > =

w w w u w u w w D M M M q q q

(4.14)
S calculm variaia triei sinaptice, la prezentarea unui singur vector de intrare u
o
:

q q q q q
o o o o
n + s + = + = A 2 ) ( 2 ) ( ) ( | |
2 2 2 2 2 2 2
u u w u w u w w (4.15)

i cum n n k u
k
= = =
2
) ( , 1 , 1
o o
u .

Din relaia (4.13) avem:

) 2 ( 2 | |
2 2
q q q q + = + s A n n n w (4.16)

Sumnd inegalitatea (4.16) pentru M pai obinem:

) 2 ( | |
2
q q + s n M w (4.17)

Din relaia (4.14), prin ridicare la ptrat avem:

>
- - - 2 2 2 2 2 2
| | ) ( ) ( w w w w D M q

2
2 2 2
2 2
2 2
| |
) (
| | | |
) (
w
w
w w
w w
-
-
-

>

D M q
(4.18)

Folosind relaia (4.17) obinem:


) 2 (
) (
) 2 (
) (
| | | |
) (
2 2 2 2
2 2
2 2
q
q
q q
q
+

=
+

>

- -
-
-
n
MD
Mn
D M w w
w w
w w
(4.19)

Membrul stng al acestei inegaliti reprezint produsul scalar normalizat al vectorilor
w i w
*
, care este ptratul cosinusului unghiului dintre cei doi vectori. Obinem:

81

) 2 (
) (
| | | |
) (
cos 1
2
2 2
2 2
2
q
q
+

>

= u >
-
-
-
n
MD w
w w
w w
(4.20)

q
q

+
s
) (
2
2
w D
n M (4.21)

Membrul drept al relaiei de mai sus, reprezint un numr finit, aa c am obinut
faptul c legea de nvare a PS converge ntr-un numr finit de pai M la soluia dorit.
n relaia (4.21) este demn de remarcat c numrul M necesar de pai pentru
convergen, este proporional cu dimensionalitatea datelor de intrare, nedepinznd de
cardinalitatea mulimii de antrenament. Acest rezultat este adevrat din punct de vedere
teoretic, dar nu i practic, cci ntr-o faz de nvare se prezint toate datele de antrenament.



IV.1.3. PS cu funcie de activare liniar

Vom considera n acest paragraf PS cu funcie de activare liniar, f x x ( ) = . PS cu
funcie de activare liniar prezint avantajul c putem s-i atam o funcie cost, E w ( ),
numit funcie eroare sau funcie energetic ce msoar eroarea produs la stratul de ieire a
PS, ca o funcie derivabil n raport cu triile sinaptice.


I V.1.3.1. Modul de operare. Soluii explicite


Fie x

= = ( , ,..., ), ,..., x x x P
n 0 1
1 mulimea vectorilor de intrare. Atunci valoarea
de ieire obinut la al j-lea neuron al stratului de ieire, relativ la al -lea vector de intrare
este:

y w x j m
j jk
k
n
k

= =
=

0
1 , , (4.22)

Relaia care dorim s fie satisfcut n urma procesului de nvare, dac z

reprezint
vectorul int, este:

z w x j m P
j jk
k
n
k

= = =
=

0
1 1 , , , , , , (4.23)

Fie ) (R
P P
M Q

e o matrice ptratic de ordinul P, numit matrice de covarian,
definit astfel:
q
n
x x
i
i
n
i o|
o |
=
=

1
0
(4.24)

Dac matricea Q este nesingular avem:

82
w
n
z q x j m i n
ji j
P P
i
= = =
= =


1
1 0
1 1
1
_
_
_
( ) , , , , (4.25)

ntr-adevr, pentru aceast alegere a triilor sinaptice avem satisfcut condiia:


I w x
n
z q x x z q
n
x x
z q q z z j m P
j ji
i
n
i j i
P P
i
n
i j
P P
i
i
n
i
j
P P
j
P
j

_

_
_
_
_
_

_
_
_

_

o
= = = =
= = = = =
=

= = =

= = =

= = =


0
1
1 1 0
1
1 1 0
1
1 1 1
1 1
1 1
( ) ( ) ( )
( ) , , , , , ,


unde o
_
_
_
=
=
=

1
0
,
,
reprezint simbolul lui Kroenecker. Atunci:

y f I I z P j m
j j j j

= = = = = ( ) , , , , , , 1 1

Alegerea triilor sinaptice w n conformitate cu (4.25) este posibil doar dac matricea
Q este nesingular, ceea ce este echivalent cu condiia ca vectorii de intrare
x

= = ( , ,..., ), ,..., x x x P
n 0 1
1 s fie liniar independeni.
Condiia de liniar independen a vectorilor de intrare este suficient, dar nu i
necesar. Putem gsi soluia PS i n cazul cnd vectorii de intrare nu sunt liniar independeni,
dar prin alt metod.
Mulimea vectorilor de intrare x

= = ( , ,..., ), ,..., x x x P
n 0 1
1 poate fi liniar
independent doar dac P n s , ceea ce evident este o restricie sever asupra capacitii de
memorare a PS.

I V.1.3.2. Legea de nvare gradient descendent

Metoda prezentat n paragraful anterior este aplicabil practic doar dac matricea de
covarian Q este nesingular, ceea ce este o restricie foarte puternic. Presupunnd ns c
Q este nesingular, utilizarea formulei (4.25) este dificil, deoarece dac avem un numr
mare de date de antrenament, adic P este mare, avem de inversat o matrice de mare
dimensiune. De aceea, suntem interesai s determinm o lege iterativ de nvare, bazat pe
modificri succesive ale triilor sinaptice, pornind de la valori arbitrare.
Atam PS o msur a erorii prin intermediul unei funcii cost, numit funcie eroare,
definit astfel:

E z y z w x
i
P
i
m
i i
P
i
m
ik
k
n
k
( ) ( ) ( ) w = =
= = = = =

1
2
1
2
1 1
2
1 1 0
2

(4.26)

Funcia eroare ) (w E este dependent de triile sinaptice i de datele de antrenament
( , ), , , x z

=1 P. Cnd triile sinaptice se apropie de soluia dorit (4.23),
atunci E( ) w 0.
Considernd reprezentarea geometric a funciei eroare n spaiul triilor sinaptice w,
vom folosi cunoscutul algoritm gradient descendent. Acest algoritm presupune modificarea
triilor sinaptice w
ik
cu o cantitate proporional cu gradientul lui E( ) w :

83
Aw
E
w
z y x i m k n
ik
ik
i
P
i k
= = = =
=

q
c
c
q


( ) , , , , , ,
1
1 0 (4.27)

Notnd eroarea obinut la neuronul al i - lea din stratul de ieire, relativ la al - lea
vector de intrare cu:

o

i i i
z y i m = = , , , , 1 (4.28)

obinem:

Aw x i m k n
ik i k
= = = q o

, , , , , , 1 0 (4.29)

Formula de mai sus este numit regula delta sau legea Adaline sau legea Widrow-
Hoff [207] sau legea LMS (Least Mean Square) [172].
n lucrarea [68] se studiaz n detaliu, convergena legii de nvare a PS, bazat pe
metoda gradient descendent [20].


IV.1.4. PS cu funcie de activare neliniar


n acest paragraf vom studia PS cu funcie de activare neliniar, derivabil de tipul
celor prezentate n II.1.1.2.


I V.1.4.1. Modul de operare


Dac x

= = ( , ,..., ), ,..., x x x P
n 0 1
1 reprezint vectorii de intrare, neuronii din
stratul de ieire vor genera urmtoarele valori:

y f I f w x j m P
j j jk
k
n
k

= = = =
=

( ) ( ), , , , , ,
0
1 1 (4.30)

Relaia care dorim s fie satisfcut dup faza de nvare este:

z y j m P
j j

= = = , , , , , , 1 1 (4.31)

sau
z f w x j m P
j jk
k
n
k

= = =
=

( ), , , , , ,
0
1 1 (4.32)




84
I V.1.4.2. Legea de nvare gradient-descendent


Atam PS funcia de eroare:

E z y z f w x
i
P
i
m
i i
P
i
m
ik
k
n
k
( ) ( ) [ ( )] w = =
= = = = =

1
2
1
2
1 1
2
1 1 0
2

(4.33)

Aplicnd algoritmul gradientului descendent obinem:

n k m i x x w f x w f z
w
E
w
k
n
k
k ik
n
k
k ik i
P
ik
ik
, 0 , , 1 , ) ( ' )] ( [
0 0 1
= = =
= = A

= = =

q
c
c
q
(4.34)

Corecia Aw
ik
ce se aplic unei trii sinaptice dup prezentarea vectorului de intrare x


este:

Aw x i m k n
ik i k
= = = q o

, , , , , , 1 0 (4.35)

unde: o

i i i ik k
k
n
z y f w x =
=

( ) ' ( )
0
(4.36)

Este convenabil s utilizm pentru PS funcii de activare de tipul:

f x x f x
e
x 1 2
1
1
( ) tanh( ), ( ) = =
+

(4.37)

Deoarece:


f x x f x
f x
e
e
e
f x f x
x
x
x
1
2
1
2
2 2 2
1 1
1
1 1
1
' ( ) tanh ( ) ( ),
' ( ) ( )( ( ))
= =
=
+

+
=

(4.38)

ceea ce elimin necesitatea de a mai calcula derivate.

Condiiile de existen a unei soluii sunt aceleai ca i n cazul PS cu funcie de
activare liniar, adic liniar independena vectorilor de intrare

x , deoarece soluia problemei


noastre este echivalent cu soluia problemei PS liniar, cnd valorile int sunt
f z j m
j

=
1
1 ( ), , ,

.
Problema care apare la PS cu funcie de activare neliniar este dac legea de nvare
avnd la baz algoritmul gradient-descendent, converge la soluia optimal, cnd soluia
exist. Se poate ntmpla ca pentru anumite probleme, suprafaa eroare, corespunznd
funciei eroare, s prezinte o form neregulat cu o mulime de vi, care vor avea puncte de
minim local pe lng posibilul minim global. n aceste puncte de minim local algoritmul
gradientului descendent se poate mpotmoli, genernd o soluie incorect.


85
IV.1.5. PS stohastic


S ncercm s gsim o justificare a comportamentului stohastic [121] al neuronilor i
implicit al reelei neuronale din care fac parte. n reelele neuronale biologice (II.1.1.1.),
neuronii genereaz semnale de mrime variabil, existnd anumii factori de ntrziere n
legtura sinaptic, fluctuaii aleatoare datorate eliberrii substanei neuro-transmitoare de
ctre vezicule i alte asemenea elemente cu comportament aleator. Aceste efecte pot fi
considerate n cazul modelelor de neuroni artificiali, respectiv reelelor neuronale artificiale,
ca un zgomot [211] reprezentabil cu ajutorul unei fluctuaii termice [178].
Introducerea parametrului temperatur n studiul reelelor neuronale nu trebuie privit
prin prisma temperaturii fizice; temperatura va reprezenta un parametru de control al
zgomotului din date sau parametrul de control al momentului, cnd comportamentul
deterministic al reelei neuronale este depit.
Pentru a nelege mai bine modelul stohastic al PS, va trebui s studiem analogia
dintre reelelor neuronale i sistemele fizice magnetice.

I V.1.5.1. Sisteme magnetice

O descriere simpl a unui material magnetic const dintr-o mulime de atomi
magnetici, aranjai ntr-o matrice care reprezint structura cristalin a materialului. Aceti
atomi magnetici sunt numii spini.
Un spin poate fi orientat n diferite direcii, numrul de posibiliti depinznd de tipul
atomului considerat. Cel mai simplu model este aa numitul model atomic spin
1
2
, n care
doar dou direcii sunt posibile. Modelul spin
1
2
este reprezentat ntr-o matrice
corespunztoare, numit modelul I sing, avnd ataat o variabil y
j
= 1 n fiecare punct al
matricei.












Fig.4.5: Modelul simplificat al unui material magnetic, descris cu ajutorul modelului I sing.


Analogia cu un PS cu funcia de activare f(x) = sgn(x) este evident. Un neuron va lua
valoarea +1 sau -1 dup cum spinul din materialul magnetic este orientat n sus sau jos.
Modelul I sing nu este deplin specificat pn cnd nu se cunoate dinamica i
interaciunile dintre spini. ntr-un material magnetic, fiecare spin este influenat de ctre
cmpul magnetic I
j
existent n acel punct. Cmpul magnetic I
j
este constituit din dou
mrimi:


86
I I I
j
ext
j
= +
int
(4.39)
unde:

- I
ext
reprezint cmpul magnetic extern aplicat de mediul exterior materialului
magnetic;
- I
j
int
reprezint cmpul magnetic intern produs de ctre ceilali spini ai materialului
magnetic.

Vom obine astfel urmtoarea relaie matematic:
I w y I j n
j ji i
i
n
ext
= + =
=

1
1 , , (4.40)

- termenul w y
ji i
i
n

1
reprezint cmpul magnetic intern al spinului al j-lea, ca o sum a
contribuiilor cmpurilor magnetice ale celorlali spini;
- w
ji
reprezint tria interaciunii de schimb, adic influena spinului S
i
asupra cmpului
magnetic al spinului S
j
.

Cmpul magnetic I
j
al spinului al j-lea controleaz dinamica sa. La temperaturi joase
un spin tinde s se alinieze paralel cu cmpul su magnetic I
j
, acionnd asupra lui n aa fel
nct s-l fac s satisfac relaia:

y I j n
j j
= = sgn( ), , 1 (4.41)

La temperaturi mai ridicate, apare fenomenul fluctuaiei termice care face ca spinii s
oscileze ntre cele dou direcii corespunztoare lui +1 i -1. ntotdeauna vor fi prezente dou
tendine:
- cmp magnetic - care tinde s alinieze spinii;
- fluctuaie termal - tinde s distrug alinierea spinilor.

Pentru a descrie matematic fenomenul fluctuaiei termice n modelul I sing, ne vom
folosi de dinamica Glauber [82]. n dinamica Glauber, regulile deterministe sunt nlocuite de
urmtoarea regul stohastic:


+
=
)) ( 1 ( Pr , 1
)) ( ( Pr , 1
j
j
j
I f ob
I f ob
y , j = 1,2, , n (4.42)

care reprezint legea de modificare a valorii unui spin. Funcia f, care este echivalentul
funciei de activare a neuronului artificial, se alege de obicei ca fiind funcia sigmoidal
Glauber:


I
e
I f I f
| | 2
1
1
) ( ) (

+
= = (4.43)

Parametrul | este dependent de temperatura absolut T, prin relaia:

K erg k
T k
/ 10 38 . 1 ,
1
16
=

=
|
|
| (4.44)
87

Constanta k
|
este constanta Boltzmann. Putem rescrie relaia (4.42) sub forma:


j
I j
e
I f

+
= = =
| | 2 j
1
1
) ( ) 1 Prob(y

(4.45)

Temperatura controleaz panta sigmoidei n jurul valorii I
j
= 0. Cnd
) ( 0 | T atunci f
|
se comport ca o funcie treapt (Heaviside), iar cnd
) 0 ( | T atunci f
|
se comport aleator.
Aplicnd dinamica Glauber asupra unui material magnetic constituit dintr-un singur
spin, nu mai intervine influena cmpului intern generat de ceilali spini, ci doar cmpul
magnetic extern. Putem calcula media magnetizrii, notat ( ) y astfel:


) tanh(
1
1
1
1
) 1 ( ) 1 ( Pr ) 1 ( ) 1 ( Pr
2 2
I
e e
e e
e e
e
e e
e
e e
ob ob y
I I
I I
I I
I
I I
I
I I
|
| |
| |
| |
|
| |
|
| |
=
+

=
=
+

+
=
+

+
=
= + + + = ) (


(4.46)

Dac considerm un material magnetic constituit din mai muli spini, nlocuind
fluctuaia termic real cu valoarea sa medie, metod cunoscut sub numele de Teoria
Cmpului Mediu (Mean Field Theory), vom avea:


ext
i
n
i
ji j
I y w I + =

=1
(4.47)

nlocuind n relaia (4.46) obinem:

) tanh( ) tanh(
1
ext
n
i
i ji j j
I y w I y + = =

=
| | | (4.48)


I V.1.5.2. Mod de operare. Legea de nvare


ntr-un PS stohastic vom avea pe baza relaiei (4.45):

P m j
e
I f
j
I
j
, 1 , , 1 ,
1
1
) ( ) 1 Prob(y
2
j
= =
+
= = =

(4.49)
unde:

P m j x w I
i
n
i
ji j
, 1 , , 1 ,
1
= = =

=


(4.50)

Pe baza Teoriei Cmpului Mediu vom avea:

88
( ) = =
=

y w x j m
j ji
i
n
i

| tanh( ), ,
1
1 (4.51)

unde ( ) y
j

va reprezenta valoarea medie a lui y


j

relativ la un anumit numr de date de


intrare.
Legea de nvare, poate fi similar cu legea de nvare a PS cu funcie de activare
f(x) = sgn(x).

P n i m j x w
i j ji
, 1 , , 1 , , 1 , = = = = A qo

(4.52)
unde:
m j y z
j j j
, 1 , = ) ( =

o (4.53)
Legea de nvare (4.52) va descrete valoarea medie a funciei eroare ataat PS
stohastic:


2
1 1
2
1
) ( ) (

i
n
i
P
i
y z w E =

= =
(4.54)

Deoarece } 1 , 1 { , + e

i i
y z putem rescrie relaia de mai sus sub forma:

) 1 ( ) (
1 1

i i
n
i
P
y z w E =

= =
(4.55)

de unde obinem valoarea medie a funciei eroare:


= = =
= =
(

=
= ) ( = ) (
n
i
P m
k
k ik i
i i
n
i
P
x w z
y z E
1 1 1
1 1
) tanh( 1
) 1 ( ) (

|
w
(4.56)

Variaia erorii, relativ la modificarea triilor sinaptice, devine:

= A = A
) (
= ) ( A

= = = = = ji
j
i
n
i
m
j
P
ji ji
n
i
m
j ji
w
I
z w w
w
w E
E
c
| c
c
c

)) (tanh(
) (
) (
1 1 1 1 1
w

) ( sec )] tanh( 1 [
2
1 1 1

| | | q
i i i
n
i
m
j
P
I h I z =

= = =
(4.57)
Am folosit formula (4.56) i ) ( sec )) (tanh(
2
x h x
x
=
c
c
.
Deoarece tanh(x) < 1, rezult c A( ) < E w ( ) 0, deci legea de nvare micoreaz
permanent funcia eroare.




89
IV.1.6. Capacitatea de memorare a PS


Problemele pentru care dorim s gsim un rspuns sunt urmtoarele:

- Cte perechi de date aleatoare (vectori de intrare, vectori int) putem stoca ntr-un
PS, avnd o arhitectur dat?

- Cte perechi de date aleatoare (vectori de intrare, vectori int) pot fi nvate de un
PS, utiliznd o anumit lege de nvare supervizat?

Rspunsul la prima ntrebare va defini capacitatea maximal P
max
pe care un PS o
poate atinge pe baza unui legi de nvare.

Pentru un PS avnd funcie de activare liniar sau neliniar capacitatea maximal este
simplu de determinat ca urmare a condiiei de liniar independen a datelor de intrare. Avnd
P vectori de intrare aleatori x

, , , =1 P de dimensiune n, o condiie necesar pentru liniar


independen este P n s , de unde rezult P
max
= n.

Problema determinrii capacitii maximale P
max
pentru un PS avnd ca funcie de
activare funcia f(x) = sgn(x) este mult mai dificil de tratat, implicnd un studiu relativ la
liniar separabilitatea vectorilor de intrare P , , 1 , =

x .

Utiliznd o serie de rezultate obinute de Mitchinson i Durbin [146], vom demonstra
c in cazul unui PS avnd ca vectori de intrare, P vectori aleatori n-dimensionali,
x

, , , =1 P, i ca funcie de activare f(x)=sgn(x), rezultatul este:



P
max
=2n (4.58)

Relaia de mai sus este valabil n limita lui n foarte mare, pentru n mic fiind doar o
relaie aproximativ.

Deoarece neuronii din stratul de ieire sunt independeni unul de altul, putem
simplifica studiul capacitii maximale lund n considerare doar un singur neuron n stratul
de ieire, fr ca generalitatea rezultatelor s fie afectat.
Dup cum am vzut n Cap. IV.1.3 liniar separabilitatea vectorilor de intrare
x

, , , =1 P const n a determina un hiperplan (care trece prin origine dac nivelul de


activare este zero) care s separe n dou semiplane distincte mulimile de puncte:

S P
+
= = + e
1
1 1 { | , { ,2,..., }} x z

i S P

= = e
1
1 1 { | , { ,2,..., }} x z


unde
S
+1
S
-1
= u (4.59)

S notm cu C(P,n) numrul de moduri n care putem determina un hiperplan care s
separe liniar P puncte aleatoare din spaiul n-dimensional al vectorilor de intrare
P , , 1 , =

x .
Pentru valori mici ale lui P, rezultatul ateptat trebuie s fie:

C P n
p
( , ) = 2 (4.60)
90

deoarece n aceast situaie vom gsi ntotdeauna un hiperplan care s separe liniar punctele
(vectorii) de intrare x

, , , =1 P.

- Dac P are o valoare mare, rezultatul ateptat va verifica relaia:

C P n
p
( , ) s 2 (4.61)

deoarece n acest caz nu vom putea determina ntotdeauna un hiperplan care s realizeze
liniar separabilitatea punctelor de intrare x

, , , =1 P.

Vom calcula n cele ce urmeaz C(P,n) prin inducie. Prima dat vom avea nevoie de o
serie de informaii preliminare:

- Distribuia aleatoare a punctelor de intrare x

, , , =1 P nu este necesar, ci este doar o


garanie a generalitii rezultatelor.
- Vom spune c mulimea punctelor de intrare x

, , , =1 P este n poziie general, dac


nu exist dou puncte care s fie situate pe o dreapt ce trece prin origine.
- Vom numi soluie un hiperplan care realizeaz liniar separabilitatea punctelor de intrare
x

, , , =1 P, deci C(P,n) reprezint numrul de soluii.


S pornim de la un numr de P puncte de intrare x

, , , =1 P de dimensiune n.
Adugnd un nou punct x
P+1
la mulimea punctelor de intrare, obinem relaia de recuren
[146]:
C P n C P n C P n ( , ) ( , ) ( , ) + = + 1 1 (4.62)

Iternd relaia de recuren pentru P P P , , ,..., , 1 2 21 obinem:

C P n C C n C C n C C n P
P P P
P
( , ) ( , ) ( , ) ... ( , ) = + + + +

1
0
1
1
1
1
1 1 1 1 1 (4.63)

unde C m
P m
P m m
( , )
,
, ,
1
2
0 0
=
s
> s

(4.64)

Atunci putem rescrie (4.63) sub forma:

C P n C
P
i
i
n
( , ) =

=

2
1
0
1
(4.65)

De aici obinem urmtorul grafic reprezentat n Fig.4.6 [96]:
Observnd tranziia abrupt care apare n punctul
P
n
= 2, putem trage concluzia c
P
max
=2n.
Cu ct n este mai mare, tranziia este mai abrupt, ajungnd s devin asimptotic.
Acest rezultat grafic, poate fi dovedit i analitic, deoarece:


2
1
2
) , 2 (
2 ) , 2 (
1
= =

P
P
n n C
n n C

adic, graficul funciei C(P,n)/2
P
trece ntr-adevr prin punctul de coordonate (2, 0.5).
91

Fig.4.6. Graficul funciei C(P,n)/2
P
n raport cu P/n. Graficul reprezint media cazurilor cnd
n = 2, 3,..., 1000.


De remarcat valabilitatea rezultatului obinut pentru P s n. n aceast situaie avem:

C P n C C
P
i
i
n
P
i
i
n
P i i P P P
( , ) ( ) = = = + = =

+

2 2 1 1 2 1 1 2 2 2
1
0
1
1
0
1
1 1 1
(4.66)


IV.1.7. Interpretarea geometric a PS


Vom studia, din punct de vedere geometric, funcia eroare ataat PS. Vom lua n
considerare un PS avnd ca funcie de activare o funcie continu i derivabil.
Dup cum am menionat n II.1.1.2. ca i funcii de activare, cea mai utilizat este
funcia sigmoid sau funcia tangent hiperbolic. De exemplu considerm funcia sigmoid
R e
+
=

|
|
|
,
1
1
) (
x
e
x f , dac | atunci

>
<
=
0 , 1
0 , 0
) (
x
x
x f f
|
(funcia treapt), dac
0 | atunci
|
f funcie liniar.
n acest fel, rezultatele deduse pentru funcia de activare sigmoid rmn valabile, ca
i un caz particular, pentru funcia de activare signum, treapt, liniar.

Fie f funcia de activare neliniar continu i derivabil a unui PS, pentru care
considerm doar un singur neuron de ieire, folosind motivaia de simplificare a notaiei. La
neuronul de ieire vom obine valoarea:

P w x w f x w f y
k
n
k
k k
n
k
k
, 1 ), ( ) (
0
1 0
= + = =

= =


(4.67)

C(P,n)/2
P
1
0.5
0 1 2
P/n

92
Hiperplanul de ecuaie w x w x w x w
n n 1 1 2 2 0
0 + + + + = ... reprezint hiperplanul ce
trebuie s realizeze liniar separabilitatea punctelor de intrare P x , 1 , =

.

S considerm spaiul conjugat al spaiului punctelor de intrare. Corespondena dintre
spaiul punctelor de intrare
n
X R _ i spaiul conjugat, stabilete o coresponden de tipul
punct-hiperplan.

Fie w x w x w x w
n n 1 1 2 2 0
0 + + + + = ... ecuaia unui hiperplan din spaiul de intrare. n
spaiul conjugat acestui hiperplan i va corespunde un punct de coordonate ) ,..., , (
2 1 n
w w w . n
mod similar, toate hiperplanele ce trec printr-un punct dat ) ,..., , (
* *
2
*
1 n
x x x satisfac relaia
w x w x w x w
n n 1 1 2 2 0
0
* * *
... + + + + = , ceea ce reprezint ecuaia unui hiperplan n spaiul conjugat.

Fig.4.7.: Reprezentarea grafic a corespondenei punct-hiperplan dintre spaiul punctelor de intrare i
spaiul conjugat.

Deoarece spaiul conjugat este raportat la triile sinaptice ale PS, vom numi de acum
nainte spaiul conjugat, spaiul triilor sinaptice (weight space).

Pe baza corespondenei punct-hiperplan, punctelor de intrare P , 1 , =

x le vor
corespunde hiperplane n spaiul conjugat al triilor sinaptice, care vor partiiona spaiul
triilor sinaptice. Vom avea n spaiul triilor sinaptice:

C P n C
P
i
i
n
( , ) =

=

2
1
0
1
- regiuni nelimitate
C
P
n
1
- regiuni limitate (4.68)

Un punct care aparine unei regiuni din spaiul conjugat al triilor sinaptice reprezint
un hiperplan n spaiul punctelor de intrare, care separ liniar punctele de intrare. Mutnd un
punct n spaiul conjugat al triilor sinaptice, dintr-o regiune n alt regiune adiacent,
hiperplanul conjugat corespunztor spaiului punctelor de intrare este deplasat relativ la un
punct de intrare.

Fiecare punct P , 1 , =

x al spaiului de intrare poate fi etichetat n dou moduri, n


funcie de vectorul int, i anume:

x
2
x
1
w
2
w
1
1
d
1
2
3
d
1
2 1 3
0 0

93

P , 1 , 1
1
= =
+ = +



z x
z x
(4.69)

Aceast etichetare introduce o orientare corespunztoare a hiperplanelor conjugate din
spaiul conjugat al triilor sinaptice. De aceea fiecare regiune a spaiul triilor sinaptice va
avea ataat o etichet P dimensional de simboluri + i -.
Conform acestei interpretri, PS va avea o soluie liniar separabil dac n spaiul
triilor sinaptice vom gsi o regiune etichetat doar cu --...-. Cu ct o regiune din spaiul
triilor sinaptice va avea mai multe simboluri -, ea va fi mai apropiat de soluia optimal.

Soluia optimal a unui PS cu funcie de activare continu i derivabil se obine
aplicnd o lege de nvare tip gradient descendent, care s minimizeze diferena dintre
vectorul de ieire y i vectorul int z. Funcia eroare n spaiul conjugat al triilor sinaptice
corespunde numrului de puncte de intrare care genereaz o valoare de ieire eronat n raport
cu valoarea int. n fiecare regiune a spaiul triilor sinaptice funcia eroare este constant,
avnd valoarea E=i, dac n eticheta ataat acelei regiuni vom avea un numr de i simboluri
de +.
Dac PS are soluie, deci datele sunt liniar separabile, suprafaa funciei eroare este
regulat, avnd o form parabolic. Dac ns PS nu are soluie, suprafaa regulat a funciei
eroare este spart de o mulime de suprafee ce corespund minimelor locale, neexistnd o
regiune cu eticheta ----...-.

S ncercm s determinm numrul mediu al minimelor locale ale suprafeei eroare
pentru o problem solvabil cu ajutorul unui PS. Acest calcul are importan din punctul de
vedere al nelegerii complexitii problemei i a adoptrii unei strategii de nvare
corespunztoare, n scopul evitrii blocajului n puncte de minim local.

Pentru cazul bidimensional n = 2, avem [27]:

R n
n n
= + +

1
1
2
( )
numrul regiunilor n spaiul triilor sinaptice;
E n =
2
numrul segmentelor sau semidreaptelor ce delimiteaz aceste regiuni.

n medie, putem considera c o regiune va avea un numr de S E R = 2 / linii de
frontier. Condiia necesar i suficient pentru ca o regiune s fie o regiune de minim relativ
pentru funcia eroare este ca, dup ce traversm orice linie frontier, s gsim o valoare mai
mare pentru funcia eroare. Atunci numrul mediu de minime relative este:

Numr mediu minime relative =
R
S
2
(4.70)

n cazul general n > 3, vom avea:


) , (
2
1
) 1 , 1 (
2
1
n P C n E
n P C R
=
+ + =
(4.71)

94
de unde, pe baza aproximaiei S
E
R
n = ~
2
2 , putem obine numrul mediu al minimelor
relative pentru funcia eroare:

Numr mediu minime relative =
R
n
2
2
. (4.72)


I V.2. Perceptronul multistrat (PMS)


Minsky i Papert [145] au subliniat limitele PS, care este capabil s reprezinte doar
funcii liniar separabile. Puterea de reprezentare a PMS a fost intuit cu mult timp nainte, dar
nu s-a putut gsi o lege de nvare dect n ultimii ani. Aceast lege de nvare, bazat tot pe
un algoritm de optimizare tip gradient descendent, este numit propagare napoi (BP - Back
Propagation). Descoperirea BP a constituit unul din momentele cruciale ale dezvoltrii
calculului neuronal. Cu ajutorul unui PMS se poate reprezenta orice funcie continu pe un
interval compact [62], [63], [65].

IV.2.1. Legea de nvare BP


S considerm un PMS avnd o arhitectur general ca cea din Fig.2.3. Vom folosi
urmtoarele notaii:
- numr total de straturi : l l = ( ) 1 straturi ascunse + 1 strat de ieire.
- w k l
ji
k
, , , =1 - tria sinaptic corespunztoare conexiunii dintre neuronul al i-lea din
stratul ( ) k 1 i neuronul al j-lea din stratul k . Stratul de intrare este considerat ca
fiind stratul cu numrul 0, iar stratul de ieire este stratul cu numrul l.
- n k l
k
, , , =1 - numrul de neuroni ai stratului al k-lea. Stratul de intrare este considerat
ca avnd n n
0
= neuroni, iar stratul de ieire are n m
l
= neuroni.
- I k l j n
j
k
k
, , , , , , = = 1 1 - valoarea de intrare pentru neuronul al j-lea din stratul al k-lea.
- y k l j n
j
k
k
, , , , , , = = 1 1 - valoarea de ieire din neuronul al j-lea al stratului k. Valoarea
de ieire a neuronilor din stratul de ieire este: y y j m
j j
l
= = , , , 1 .

Termenul Bias va fi reprezentat implicit. Funcia de activare folosit pentru PMS va fi
neliniar, derivabil i mrginit, cele mai des folosite funcii folosite fiind funcia sigmoidal
i funcia tangent hiperbolic:

f x
e
f x x
e e
e e
x
x x
x x 1 2
1
1
( ) , ( ) tanh( ) =
+
= =

+



95
n cele ce urmeaz, pentru a simplifica notaia, vom evita scrierea indicelui superior ,
care indic al -lea vector (punct) de intrare al mulimii de antrenament, atunci cnd nu exist
pericol de confuzie.
Modul de operare al PMS poate fi exprimat matematic astfel:

- Integrare: I w y k l j n I x j n
j
k
ji
i
n
i
k
k j j
k
= = = = =
=

1
1 0
1
1 1 1 , , , , , , , , , , (4.73)

- Activare:

y f I f w y f w f w f f w x
k l j n
j
k
j
k
ji
k
i
n
i
k
ji
k
i
n
ji
k
i
n
ji
i
n
i
k
k k k
k
k
k
= = ==
= =
=

= =


( ) ( ) ( ( (... ( ( )... ),
, , , , ,
1
1
1
1
1
1
1
1
1
1
1
2
2
2
1 1
(4.74)

PMS va genera la stratul de ieire valorile:

y f w f w f f w x j m
j ji
l
i
n
ji
l
i
n
ji
i
n
i
l l
l
l
k
= =
=

= =


( ( (... ( ( )... ), , ,
1
1
1
2
2
2
1
1
1
1
1
1 (4.75)

Considerm funcia eroare E(w) ca o msur a performanelor PMS, exprimat ca
ptratul diferenei dintre vectorii int i valoarea obinut la stratul de ieire:

= =

= =
2
1 1
) (
2
1
) (

j
P
j
m
j
y z E w
= =
= = =

= =


1
2
1
1 1 1
1
1
1
1
2
1
1
1
2
2
2
( ( ( (... ( ( )... )) , , , z f w f w f f w x j m
j
j
m P
ji
l
i
n
ji
l
i
n
ji
i
n
i
l l
l
l
k

(4.76)

Funcia eroare E(w) este continu i derivabil n raport cu triile sinaptice.
Algoritmul gradientului descendent, corespunztor legii de nvare BP, pornind de la stratul
de ieire ctre stratul de intrare, este:

Aw
E
w
z y f I y j m i n
ji
l
ji
l j
P
j j
l
i
l
l
= = = =
=


q
c
c
q

( ) ' ( ) , , , , , ,
1
1 1
1
1 1 (4.77)

sau notnd:

o
j
l
j
l
i
l
f I y j m = =

' ( ) , , , ,
1 1
1 (4.78)
obinem:

Aw y j m i n
ji
l
j
l
i
l
P
l
= = =

=

q o

1
1
1
1 1 , , , , , (4.79)

Ecuaia (4.79) se numete regula delta-generalizat.

Pentru triile sinaptice, corespunztoare conexiunilor dintre stratul k-1 i stratul k, k >
1, vom propaga eroarea o
j
k
obinut la stratul k napoi ctre stratul k-1, utiliznd algoritmul
gradientului descendent:
96

Aw y k l j n i n
ji
k
j
k
i
k
P
k k
= = = =

=

q o

1
1
1
1 1 1 1 , , , , , , , , , (4.80)
unde: o o
j
k
j
k
ij
k
i
n
i
k
k
f I w j n k l
k
= = =
+
=

' ( ) , , , , , ,
1 1
1
1
1
1 1 1 (4.81)


n general, formula de modificare a triilor sinaptice are forma:

Aw y k l j n i n
ji
k
j
k
i
k
P
k k
= = = =

=

q o

1
1
1
1 1 1 1 , , , , , , , , , (4.82)

formul reprezentat grafic n Fig.4.8.
Pe baza acestor relaii matematice, s descriem legea de nvare BP a PMS, utiliznd
o descriere algoritmic:

Pasul 1: Iniializm triile sinaptice cu valori aleatoare mici (din intervalul (-1, 1)):

w j n i n k l
ji
k
k k
e = = =

( , ), , , , , , , , , 01 1 1 1
1
.

Iniializm = 1.

Pasul 2: Aplicm la stratul de intrare, vectorul de intrare x

, iniializnd:

y x j n
j j
0
1 = =

, , ,

Pasul 3: Propagm vectorul de intrare x

, ctre stratul de ieire, utiliznd formulele:



y f I f w y k l j n
j
k
j
k
ji
k
i
n
i
k
k
k
= = = =
=

( ) ( ), , , , , ,
1
1
1
1 1

Dac k = l obinem valorile de ieire ale PMS:

y f I f w y j m
j
l
j
l
ji
l
i
n
i
l
l
= = =
=

( ) ( ), , ,
1
1
1
1

Pasul 4: Calculm erorile o
j
l
relativ la stratul de ieire:

o

j
l
j
l
j j
f I z y j m = = ' ( ) ( ), , , 1

Pasul 5: Propagm erorile o
j
l
de la stratul de ieire ctre stratul de intrare:

o o
j
k
j
k
ij
k
i
n
i
k
k
f I w j n k l l
k
= = =
+
=
+
+

' ( ) , , , , , , ..,2,
1
1
1
1
1 1 2 1

Pasul 6: Actualizm triile sinaptice pe baza formulelor:
97


A
A
w y
w w w k l j n i n
ji
k
j
k
i
k
ji
k
ji
k
ji
k
k k
=
= + = = =

qo
1
1
1 1 1 , , , , , , , , ,


Pasul 7: Dac s P SAU E(w) < atunci = + 1 i Goto Pasul 2, altfel STOP.


Fig.4.8.: Reprezentarea schematic a modului de propagare napoi a erorii
k
n
k k
k
o o o ,..., ,
2 1
din
stratul k ctre stratul k-1, pe baza creia se modific triile sinaptice Aw
ji
k
.


IV.2.2. Variante ale legii de nvare BP pentru PMS


Legea de nvare BP a constituit obiectul a numeroase ncercri de mbuntire, n
special din punct de vedere al vitezei de convergen, care n aceast form clasic este prea
lent.
Exist de fapt un numr mare de parametrii care pot fi variai n cadrul legii de
nvare BP pentru PMS. Dintre aceti parametri putem aminti: arhitectura PMS (numr de
straturi, numr de neuroni n fiecare strat, conexiuni sinaptice), dimensiunea mulimii de
antrenament i natura sa, legea de nvare etc. Nu vom ncerca s rspundem la toate aceste
probleme, deoarece fiecare dintre ele constituie direcii de cercetare distincte n domeniul
calculului neuronal.

I V.2.2.1. Diferite tipuri de funcii eroare


Funcia cvadratic eroare
2
1 1
) (
2
1
) (

j
P
j
m
j
y z E =

= =
w folosit de legea de nvare
BP nu este singura alegere posibil. n general factorul ptratic ( ) z y
j j

2
poate fi nlocuit cu
Neuronul i
o
k
1
o
k
2
o
k
j
o
k
nk
Stratul k
Stratul k-1
1 2 j n
k
w
ji
k

98
orice funcie continu i derivabil F z y
j j
( , )

. n aceast situaie, singurul lucru care se
modific n cadrul legii de nvare BP este:

Pasul 4: o

j
l
j
l
j j
f I z y j m = = ' ( ) ( ), , , , 1 =1,,P se modific n

o

j
l
j
l
j j
f I F z y j m P = = =
1
2
1 1 ' ( ) ' ( , ), , , , . , (4.83)


Dac particularizm funciile de activare, pentru ) tan( ) ( x x f = obinem urmtoarele
modificri pentru Pasul 4 al legii de nvare BP:

Pasul 4: P m j y z
j j
l
j
, , 1 , , , 1 , = = = o

(4.84)

Observm c n acest caz nu mai apare factorul f I
j
l
' ( ), ceea ce nseamn c atunci
cnd I
j
l
este ntr-o vecintate a lui zero i suprafaa corespunztoare funciei eroare are o
curbur pronunat, nu vom avea fenomene divergente sau oscilatorii, asigurnd pai mici
descendeni pe suprafa.
n lucrarea lui Fahlman [71] ntlnim urmtoarea alegere pentru legea de nvare BP:

Pasul 4: o

j
l
j
l
j j
f I z y j m P = + = = [ ' ( ) ]( ), , , , , ,
1
10
1 1 (4.85)

Aceast alegere aduce ca mbuntire faptul c o
j
l
= 0 chiar i atunci cnd I
j
l
este
mare, contribuind i n aceast situaie la modificarea triilor sinaptice.
Alt variant propus tot de Fahlman [71], modific erorile
l
j
o n aa fel nct
variaiile mari ale diferenei z y
j j

s fie atenuate. Pentru aceasta Pasul 4 se modific astfel:

Pasul 4: o

j
l
j j
z y =
|
\

|
.
| arctan ( )
1
2
, j=1,,m,=1,,P (4.85)

O alt metod, se bazeaz pe netezirea suprafeei generate de funcia eroare, pentru a
evita blocarea n puncte de minim relativ. Acest lucru se face cu preul pierderii temporare a
unor trsturi a datelor, care pe parcurs vor fi restaurate, pn cnd algoritmul BP ajunge n
regiunea potrivit din spaiul triilor sinaptice. Acest lucru este realizat prin metoda revenirii
simulate (simulated annealing), metod care adaug un anumit zgomot la datele de intrare,
prin intermediul parametrului temperatur [55], dup care temperatura este sczut gradual,
sistemul stabilizndu-se ntr-o configuraie energetic minimal.
Ca un exemplu n acest sens putem meniona [157], unde s-a considerat urmtoarea
funcie eroare:

=
=
=

= =
= =
P m
j
j j j j
P m
j
j j j j
y z y z
y z y z
E
1 1
2
1 1
2
) sgn( ) sgn( , ) (
) sgn( ) sgn( , ) (
) (

w (4.86)

99
unde este un parametru ce este mrit gradual de la 0 la 1. Acest lucru va implica faptul c
prima dat vom fi interesai s obinem semnul potrivit pentru y
j

relativ la z
j

, abia dup
aceea interesndu-ne mrimea absolut a lui y
j

.


I V.2.2.2. Termeni ineriali


Legea de nvare BP a PMS este puternic influenat de alegerea valorii parametrului
q - rata de nvare. O valoare mare a lui q poate duce la fenomene oscilatorii i chiar la
divergen, n timp ce valori mici ale lui q determin viteze reduse de convergen.
De aceea, a aprut idea de a aduga la triile sinaptice w
ji
k
din ecuaia delta-
generalizat (4.79) un termen inerial, numit momentum, cu rolul de a elimina oscilaiile
algoritmului de nvare i de a evita blocarea n puncte de minim relativ. Termenul
momentumva fora ca direcia de modificare s fie media direcilor cele mai descendente pe
suprafaa funciei eroare.
Termenul momentumne va permite s facem pai mari pe suprafaa funciei eroare,
n procesul de nvare, fr pericolul oscilaiilor divergente. Termenul momentum este
implementat ca i o contribuie a iteraiei anterioare n modificarea triilor sinaptice [157]:

A A w t
E
w
w t
ji
k
ji
k ji
k
( ) ( ), + = + 1 q
c
c
o (4.87)

Coeficientul o este numit coeficient momentum, o e( , ) 01 , cea mai bun valoare,
determinat prin experimente practice, fiind o = 0.9.
Efectul ecuaiei (4.87) este urmtorul: dac ne gsim pe o regiune plat a suprafeei
funciei eroare,
c
c
E
w
ji
k
va avea o valoare aproximativ constant la fiecare iteraie, iar triile
sinaptice vor converge ctre:

Aw
E
w
ji
k
ji
k
~

q
o
c
c 1
, (4.88)
unde rata de nvare a devenit
q
o 1
.
Pe de alt parte, n situaii oscilatorii, Aw
ji
k
rspunde doar cu coeficientul q la
fluctuaiile lui
c
c
E
w
ji
k
, ceea ce va accelera tendinele pe termen lung cu factorul
1
1o
fr a
amplifica oscilaiile.


I V.2.2.3. Modificarea adaptiv a ratei de nvare


n paragraful precedent, am subliniat importana alegerii corespunztoare a
parametrului q - rata de nvare. Alegerea sa este dificil, fiind bazat ndeosebi pe
100
considerente practice dect pe considerente teoretice. Chiar dac alegerea iniial a lui q s-a
dovedit a fi inspirat, pe parcursul avansrii fazei de nvare, se poate ntmpla ca q s nu
mai aib o valoare corespunztoare. De aceea s-a luat n considerare posibilitatea modificrii
adaptive a ratei de nvare, o dat cu procesul de nvare.
Pentru aceasta vom verifica influena modificrii unei trii sinaptice asupra funciei
eroare. Dac funcia eroare nu descrete, putem micora rata de nvare q. Pe de alt parte, ne
putem atepta s ntlnim situaii cnd avem descreteri prea mari ale funciei eroare, care pot
influena negativ nvarea ulterioar i prin urmare va trebui s mrim rata de nvare q.
Aceste considerente pot fi implementate matematic prin relaia:


q q q
q q
A +
e

> A
A < A >
= A R c b a
altfel
E b
mare E E a a
, , ,
, 0
0 ,
| | , 0 0 ,
(4.89)

unde AE reprezint variaia funciei eroare.

Exist n literatura de specialitate un mare numr de lucrri consacrate acestei teme,
putnd meniona ca fiind de interes [107], [200].


I V.2.2.4. Algoritmi de minimizare a funciei eroare


Legea de nvare BP s-a dovedit n practic destul de ineficient: convergen destul
de lent, blocarea n puncte de minim relativ. De aceea s-au propus, pe baza unor metode de
optimizare din analiza numeric, i ali algoritmi de minimizare a funciei eroare. Dintre
numeroasele metode luate n considerare, rezultate foarte bune s-au obinut cu metoda
gradientului conjugat [161].
Metoda gradientului conjugat, construiete o mulime de n direcii de cutare, fiecare
fiind conjugat una fa de alta, n aa fel nct minimizarea de-a lungul unei direcii u
i
nu
distruge minimizarea produs de o direcie anterioar u
i-k
, cu alte cuvinte, direciile nu
interfereaz.
S ncercm s determinm minimul absolut al funciei eroare E(w) ataat PMS.
Vom aproxima E(w) cu ajutorul dezvoltrii sale n serie Taylor n punctul w
0
din spaiul
triilor sinaptice:


c b
w w w
w w
E
w
w
E
E E
j i
j i j i
i
i i
+ ~
~ + + + =

w w H w
w w w
2
1
... ) (
2
1
) ( ) ( ) (
0
,
2
0 0
c c
c
c
c
(4.90)

- unde am renumerotat triile sinaptice w w
ji k
n aa fel nct s folosim doar un indice,
din considerente de simplificare a notaiei.
- produsul
.
reprezint produsul scalar a doi vectori.
- ) ( ) ( ), ( ), (
0
2
0 0
w w w
j i
ij
w w
f
H E b E c
c c
c
= V = = (4.91)

101
Matricea H, este o matrice ptratic de ordinul n, pozitiv definit
( 0 , 0 > = y y y H ) i reprezint Hessiana lui E n punctul w
0
. Avem relaia:

b E = V w H (4.92)

ceea ce implic faptul c la o variaie a variabilei w cu cantitatea ow, va genera o variaie a
gradientului, de forma:

) ( ) ( w H o o = VE (4.93)

S presupunem c E a fost minimizat de-a lungul unei direcii u
i
, ntr-un punct unde
gradientul -g
i+1
a lui E este perpendicular pe direcia u
i
, adic:

0
1
=
+ i i
g u (4.94)

Cutm o nou direcie de minimizare u
i+1
. Cu scopul de a pstra minimizarea lui E
de-a lungul direciei u
i
, vom impune condiia ca gradientul lui E s rmn perpendicular pe
u
i
, adic:

0
1
=
+ i i
g u (4.95)

altfel va trebui s minimizm din nou, ntr-o direcie care este o component a direciei
anterioare u
i
.
Combinnd (4.94) i (4.95) obinem:


1 2 1
) ( ) ( 0
+ + +
= V = =
i i i i i i
E u H u u g g u o (4.96)

Vectorii u
i
i u
i+1
care satisfac relaia (4.96) se numesc vectori conjugai.
Pornind dintr-un punct arbitrar w
0
din spaiul conjugat, prima direcie de minimizare
aleas este:

) (
0
0
w g E V = (4.97)

de unde va rezulta alegerea unui nou punct w
1
.
Pentru i > 0 calculm direciile:


i i i i
u g u + =
+ + 1 1
(4.98)

unde parametrul
i
este ales astfel nct 0
1
=
+ i i
u A u i toi gradienii succesivi
perpendiculari, adic:

0 ), ( ,
1 1
> V =

=
+ +
k f
k
k
i i
i i
i
w g
g g
g g
(4.99)

Calculm noul punct de minimizare:


1 1
1 2
+ +
+ +
+ =
i i
i i
u w w (4.100)

unde coeficientul
I+1
este astfel ales nct s minimizeze E(w
i+2
).
Direciile u
i
construite n acest fel sunt dou cte dou conjugate. Acest algoritm de
minimizare este numit algoritmul Fletches-Reeves.
102
n cadrul algoritmului Fletches-Reeves, deoarece apar erori de aproximare i rotunjire
a datelor n virgul mobil, trebuie s relum de mai multe ori cele n direcii, care teoretic ar
trebui s fie suficiente pentru convergena la soluia optimal. De aceea, vom avea nevoie de
direcii de repornire u
n+1
= g
n+1
. Powell [161] a mbuntit algoritmul Fletches-Reeves,
mbuntiri pe care le vom prezenta n continuare:

a). Valoarea coeficienilor
I


La fiecare etap de minimizare, unghiul u
i
dintre vectorii g
i
i u
i
poate fi definit astfel:


i i i
g u u sec = (4.101)

sau nlocuind i cu i+1 avem:


1 1
tan
+ +
=
i i i i
g u u (4.102)

Putem elimina ||u
i
|| din (4.101) i (4.102), obinnd:


i
i
i
i
i
i i
g
g
g
g
1 1
1
tan sec tan
+ +
+
> = u u u (4.103)

nlocuind n (4.99) valoarea lui
i
cu noua valoare:


i i
i i i
i
g g
g g g


=
+ +
) (
1 1
(4.104)
astfel nct:


i
i
i i i
i
2
1 1
g
g g g
s
+ +
i
i
i i
i i
g
g g
s
+
+
1
1
sec tan u u (4.105)

deci u
i+1
s u
i
iar u
i+1
este ndreptat ctre cea mai abrupt direcie descendent.


b). Procedura de repornire

Repornirea cu u
n+1
= g
n+1
este ineficient n practic, de aceea o metod care s in
seama de valorile derivatei de ordinul doi este de dorit.
Fie u
t
o direcie descendent arbitrar de repornire. Presupunnd c E(w) este
cvadratic, ceea ce este adevrat n majoritatea aplicaiilor practice, cutm o nou direcie
u
i+1
care s fie o combinaie liniar a vectorilor u
t
i g
t
, g
t+1
,..., g
i+1
, astfel nct u
t
, u
t+1
,... sunt
vectori conjugai doi cte doi. O expresie care asigur suficiena acestei condiii este:


t i i i i i
u u g u + + =
+ +
*
1 1
(4.106)

unde
i
este calculat n aa fel nct u
i+1
s fie conjugat cu u
i
:


) (
) (
1
1 1
i i i
i i i
i
g g u
g g g

=
+
+ +
(4.107)
103

iar
I
*
asigur conjugarea lui u
i+1
cu u
t
:


) (
) (
1
1 1 *
t t i
t t i
i
g g u
g g g

=
+
+ +
(4.108)

Pentru a fi siguri c direcia rezultat este descendent i nu ascendent pe suprafaa
funciei eroare, impunem condiia:

t i
i i
> > ) ( , 0 g u (4.109)

n continuare, trebuie s asigurm dup repornire ortogonalitatea vectorilor g
i-1
i g
i
,
pentru a preveni ca aproximarea s tind ctre o limit nenul. Pentru aceasta impunem
condiia:


2
1
2 . 0
i i i
g g g s

(4.110)

De asemenea, noua direcie trebuie s fie suficient de descendent, de aceea vom avea
condiia:


2 2
8 . 0 2 . 1
i i i i
g g u g s s (4.111)

Dac condiiile (4.110) i (4.111) nu sunt satisfcute, vom reporni cu i = t - 1.

n Fig.4.9 am reprezentat rezultatele legi de nvare pentru un PMS ce implementeaz
problema XOR, considernd algoritmul clasic BP i algoritmul gradientului conjugat.


Fig. 4.9.: Legea de nvare BP i legea de nvare bazat pe gradientul conjugat.


Gradient
conjugat
Funcia
eroare
E(w)
1
0.5
0
0
10
-8
10
-2

numr iteraii
100
200
300
Back-
Propagation

104
IV.2.3. Interpretarea geometric a PMS


n IV.1.6 am studiat PS din punct de vedere al capacitii de memorare, utiliznd o
serie de argumente geometrice, pentru a deduce rezultatul foarte important P
max
~ 2n.
Pentru a simplifica analiza noastr, vom porni de la un PMS cu dou straturi, cu
urmtoarea arhitectur:
- stratul de intrare cu n neuroni;
- stratul ascuns cu h neuroni;
- stratul de ieire cu un singur neuron;
- funcia de activare poate fi funcia signum, funcia treapt sau funcia sigmoidal cu
parametrul | mare.
Neuronii din stratul de intrare conectai la un neuron al stratului ascuns constituie un
PS. De asemenea, neuronii din stratul ascuns mpreun cu neuronul din stratul de ieire
constituie un alt PS.















Fig.4.10.: Reprezentarea PS care pot fi considerai la un PMS: strat de intrare-neuron din stratul
ascuns; strat ascuns-neuron de ieire.


n IV.1.6 am dedus relativ la un PS c avem un numr de C(P,n) funcii diferite
implementabile (4.65), (4.66). Cum n stratul ascuns avem h neuroni, rezult c din stratul de
intrare i stratul ascuns vom avea C(P,n)
h
funcii implementabile diferite. Acest numr,
reprezint numrul maxim de funcii implementabile, care de obicei n problemele practice nu
este atins, deoarece nu orice implementare este demn de luat n considerare. De exemplu,
cazul n care toi neuronii din stratul de ascuns genereaz ca valoare de ieire valoarea zero,
nu transmit nici o informaie ctre stratul de ieire, o astfel de implementare fiind evident
neviabil.

Introducem urmtoarele noiuni [26]:

Def.4.1. Vom numi problem, una din cele 2
P
posibiliti distincte de a partiiona mulimea
celor P date de intrare n dou clase distincte.

Def.4.2. Vom numi funcie reea, o funcie ce corespunde legii implementate de un PMS
particular. Dou funcii reea sunt diferite, cnd relativ la aceeai arhitectur a PMS, aplicaia
implementat este diferit.

PS PS
105

Pot exista PMS diferii care s implementeze aceeai funcie reea.

Mulimea partiionrilor posibile ale celor P puncte de intrare, realizate de toate
funciile reea, o vom numi mulimea problemelor solvabile. Mulimea problemelor solvabile
este o submulime a mulimii problemelor.

Def.4.3. Vom numi soluie, orice funcie reea ce realizeaz partiionarea spaiului datelor de
intrare, conform problemei date.

S reprezentm intuitiv aceste concepte, considernd un PMS cu n=h=2.
Reprezentarea geometric o avem in Fig.4.11. n Fig 4.11.a. avem reprezentarea spaiului
datelor de intrare ce corespund stratului de intrare, partiionat de cele dou drepte x i y ce
corespund celor doi neuroni ai stratului ascuns. Toate punctele de intrare coninute ntr-unul
din cele patru regiuni etichetate 00, 01, 10, 11, vor fi aplicate prin intermediul funciei de
activare ntr-un unic punct, corespunztor spaiului datelor stratului ascuns.
Fiecare punct din spaiul corespunztor stratului ascuns este partiionat de dreapta z
(Fig.4.11.b) ce corespunde neuronului din stratul de ieire.
n acest fel cele patru puncte 00, 10, 11 respectiv 01 vor fi aplicate prin intermediul
funciei de activare n punctul 0, respectiv 1, ale stratului datelor de ieire (Fig.4.11.c).
n cazul PMS putem avea mai multe soluii la aceeai problem. Considernd de
exemplu, relativ la spaiul datelor de intrare, alte dou drepte x i y care s realizeze
partiionarea punctelor de intrare, obinem alt soluie.

S calculm probabilitatea P
S
, ca alegnd aleator o problem, ea s aib cel puin o
soluie:

P
S
solvabile probleme numr
probleme numr
solvabile probleme numr
P
2
_ _
_
_ _
= =

Deoarece nu tim s calculm numrul de probleme solvabile, vom ncerca s
deducem o margine superioar a acestui numr, bazndu-ne pe inegalitatea:


n n
S
retea functii numr solvabile probleme numr
P
2
_ _
2
_ _
s =
106

01
00
10
11
x
2

x
1

Spatiul corespunztor punctelor de intrare
(a)
x
y
00 10
01 11
z
0
1
(b)
y
x
Spatiul corespunztor stratului ascuns




0 1
(c)
Spatiul corespunztor stratului de iesire


Fig.4.11.: Reprezentarea geometric a datelor corespunztore diferitelor straturi ale PMS: strat de
intrare (a), strat ascuns (b), strat de ieire (c).

Pentru cazul PS inegalitatea de mai sus devine egalitate. S notm cu m numrul de
puncte n care sunt aplicate cele P puncte n-dimensionale ale stratului de intrare, de ctre cei h
neuroni ai stratului ascuns: m R h n e{ , ,..., ( , )} 12 unde R(h,n) este definit n IV.1.6,
reprezentnd numrul de regiuni n care spaiul n-dimensional de intrare este partiionat de h
hiperplane.
Fie B
m
(P,n,h) numrul funciilor reea care realizeaz corespondena celor P puncte de
intrare din spaiul n-dimensional la exact m puncte h-dimensionale corespunztoare spaiului
datelor stratului ascuns. Atunci:
107
B P n h C P n
m
h
m
R h n
( , , ) ( , )
( , )
=
=

1
(4.112)
Conform cu (4.71), R h n C h n ( , ) ( , ) = +
1
2
1 . Dac h s n (lucru care se ntmpl n
practic), vom avea:

R(h,n) = 2
h
, pentru h s n (4.113)

Lund n considerare i PS format din stratul ascuns i neuronul stratului de ieire,
vom avea numrul total de funcii reea:

B P n h C m h
m
m
R h n
( , , ) ( , )
( , )

1
(4.114)

Generalizarea pentru un PMS cu mai multe straturi ascunse este imediat. Obinem
formula general pentru numrul total de funcii reea:

... ( , , ) ( , , ) ... ( , , ) ( , )
( , ) ( , ) ( , )
B P n n B m n n B m n n C m n
m
m
R n n
m
R n n
m
R n n
m m l l l l l
l
l l
l 1
1
1 2
2
2 1
1
1
2 1
1 1 1
1 1 2 2 2 1 1 1

= = =



S calculm o valoare aproximativ pentru B
m
(P,n,h). Vom folosi pentru aceasta o
construcie combinatorial [27]. S notm cu R
b
P
numrul de aranjamente a P puncte n R
b

regiuni.

Fie A
m
(P) numrul de moduri n care putem dispune P puncte n exact m regiuni
distincte, fr a lsa vreo regiune vid. Atunci avem:


R C A P
b
P
R
m
m
m
R
b
b
=
=

( )
1
(4.115)

Utiliznd principiul includerii-excluderii obinem:

A P C m k
m
k
m
k P
k
m
( ) ( ) ( ) =
=

1
0
(4.116)

Presupunnd n continuare c punctele sunt etichetate diferit, numrul de moduri n
care putem aranja punctele n cele P regiuni, fr a amesteca puncte cu etichete diferite, este
un numr mai mic dect R
b
P
. n total, putem s etichetm i s le aranjm n regiuni, ntr-un
numr de ( ) 2R
b
m
moduri.

Atunci numrul de aranjamente a punctelor cu etichete diferite, n cele R
b
P
regiuni
este:
n C A P R
R
m
m
m
m
R
b
P
b
b
-
=
= s

( ) ( ) 2 2
1
(4.117)

Putem considera pentru B
m
(P,n,h) valoarea aproximativ C A P
R
m
m
b
( )
0
unde P
0

reprezint numrul de puncte pentru care numrul total de funcii din (4.112) trebuie s fie
egal cu numrul total de regiuni R(h,n). Atunci P
0
va satisface ecuaia:
108


R h n C P n
P h
( , ) ( , )
0
= (4.118)

Prin logaritmare obinem:


P
h C P n
R h n
0
2
2
=
log ( , )
log ( , )
(4.119)

n condiiile satisfacerii condiiei (4.112) avem:


P C P n
0 2
= log ( , ) (4.120)

Astfel avem aproximarea:

B P n h C A P
m m
R h n
m
( , , ) ( )
( , )
~
0
(4.121)

iar n
*
devine:

n C A P
P R h n
m
m
R h n
m
m -
=
=

1
2
2
1
0 ( , )
( , )
( ) (4.122)

unde factorul
1
2
P
reprezint factorul de mediere relativ la toate posibilitile de etichetare a
punctelor de intrare.

Cu aproximarea (4.121), numrul mediu de funcii care realizeaz o partiionare
corect a punctelor de intrare n spaiul punctelor corespunztoare stratului ascuns, este:



1
2
2
1
P m
m
m
R h n
B P n h ( , , )
( , )

(4.123)

Utiliznd cele deduse mai sus avem:



C P n
B P n h
C P n
h
P P m
m
m
R h n h
P
R h n
( , )
( , , )
( , )
( , )
( , )
2
1
2
2
2
2
1
s s
=

(4.124)

P
C P n
S
R h n
h
P
s 2
2
( , )
( , )
(4.125)
Din formula (4.125) obinem valoarea aproximativ a capacitii maximale a PMS
[27]:

P
nh
max
log
~
2
(4.126)
Rezultatul de mai sus este valabil n limita P, n, h foarte mari fiind similar cu cel
dedus n (4.65).
109
V. nvarea activ


V.1. I ntroducere


n formele clasice de nvare supervizat pe baza unei mulimi de exemple, datele de
antrenament sau exemplele sunt de obicei alese conform unei distribuii arbitrare fixate
necunoscute. n acest sens, antrenorul este pur i simplu un recipient pasiv de informaii
despre funcia de nvat (funcia int).
Problema care ne intereseaz este dac antrenorul poate avea un rol mai activ, adic pe
lng a indica rspunsul dorit s ncerce s indice i care date de antrenament trebuie selectate
pentru a obine performane ct mai bune. Exist desigur nenumrate moduri n care
antrenorul poate fi mai activ. S considerm, de exemplu, cazul extrem unde cel care nva,
pune ntrebri pur i simplu pentru a afla informaiile de care are nevoie.
Pentru analiza noastr, ne vom concentra atenia asupra situaiei n care antrenorului i
se permite s-i aleag singur exemplele, pentru aproximarea funciilor. Cu alte cuvinte,
antrenorului i se poate permite s decid de unde s ia eantioane pentru a putea aproxima
funcia int. S observm c acest lucru este n contrast direct cu cazul pasiv cnd
antrenorului i se prezentau aleator exemple din domeniul de definiie sau exemplele erau alese
conform unei distribuii uniforme (n spaiul unidimensional real R aceasta coincide cu date
echidistante).
n analiza noastr vom pstra neschimbai ceilali parametri care influeneaz procesul
de nvare i vom compara nvarea activ cu cea pasiv, care difer doar prin modul de
alegere a exemplelor [56]. O ntrebare important este dac aceste moduri de alegere activ a
exemplelor i permit antrenorului s nvee cu un numr mai mic de exemple.
Exist principii de alegere a exemplelor? Vom dezvolta un cadru general pentru
alegerea exemplelor pentru aproximarea (nvarea) funciilor reale. Vom aplica aceste
principii de alegere a exemplelor pe nite clase specifice de funcii. Am obinut limite
teoretice pentru numrul de exemple necesare pentru nvarea funciilor reale din aceste
clase, la nvarea activ i pasiv i vom face o serie de simulri experimentale pentru a
demonstra superioritatea nvrii active.


V.2. Un cadru general pentru aproximarea activ

V.2.1. Preliminarii


n cele ce urmeaz vom avea nevoie s introducem o serie de noiuni:

- Fie F clasa funciilor definite pe D cu valori n Y, unde Y _ R.

{ } R R _ _ = Y f F
n
D : (5.1)
110

Din aceast clas de funcii F face parte i funcia int f care trebuie aproximat cu ajutorul
unei scheme de aproximare.

- Mulimea de antrenament T este un set de date constituit din perechi formate din puncte ale
domeniului D i valorile funciei f n aceste puncte. Astfel:


{ }
T y D y f i N
i i i i i
= e = = ( , ) , ( ), ,2,..., x x x 1 (5.2)

- Fie H o schem de aproximare. Aceasta este o clas de funcii (definite pe mulimea D cu
valori n Y) din care va fi aleas funcia care ncearc s aproximeze funcia int f e F.
Vom folosi notaia H nu numai pentru a ne referi la clasa funciilor aproximante (funciile
care ncearc s aproximeze funcia int), dar i la algoritmul dup care antrenorul alege o
funcie aproximant: h e H pe baza setului de date T. Cu alte cuvinte, H denot o schem
de aproximare care este de fapt un cuplu (H, A), unde A este un algoritm care are ca date de
intrare mulimea T i ca rezultat de ieire o funcie h e H.

Exemplul 5.1 : Dac considerm funciile definite pe R
n
cu valori n R, exemple tipice pentru
H sunt: clasa funciilor polinomiale de un ordin dat, clasa funciilor spline de un anumit ordin,
Radial Basis Functions cu un numr limitat de noduri etc.

- Fie d
C
o metric pentru a determina ct de bun este aproximarea fcut de ctre antrenor.
Mai precis, metrica d
C
msoar eroarea pe submulimea C _ D.

Putem s facem urmtoarele observaii:

- pentru orice submulimi C
1
i C
2
ale lui D astfel nct C
1
c C
2
,
( ) ( ) d f f d f f
C C
1 2
1 2 1 2
, , s ;

- d
D
(f
1
, f
2
) reprezint distana aproximrii pe ntregul domeniu; aceasta reprezint
criteriul de baz pentru aprecierea corectitudinii aproximrii.

Exemplul 5.2: Pentru funcii reale definite pe R
n
cu valori n R, un exemplu de metric este
metrica L
C
p
definit astfel: d f f f f dx
C
C
p
p
( , ) ( )
1 2 1 2
1
=
}
.

- Fie mulimea C o partiie a domeniului D. Presupunem c punctele din domeniul D, alese
pentru reprezentarea funciei f, partiioneaz domeniul D ntr-un set de submulimi
disjuncte C
i
e C astfel nct C
i
i
N
D
=
=
1
.
Exemplul 5.3: Pentru funcii definite pe intervalul [0, 1] cu valori n R i setul de date D, un
mod natural de a partiiona intervalul [0, 1] este n intervale de forma [x
i
, x
i+1
). Mulimea C
poate fi mulimea tuturor intervalelor (nchise, deschise, semi-nchise sau semi-deschise) [a,
b]c [0, 1].

Scopul antrenorului (opernd cu o schem de aproximare H) este de a furniza o funcie
aproximant h e H (care este aleas pe baza exemplelor din mulimea de antrenament T) ca o
aproximant a unei funcii necunoscute f e F.
111
Va trebui ns s formulm un criteriu pentru aprecierea competenei antrenorului. n
literatura de specialitate, se folosete criteriul PAC (Probably Approximatevily Correct)
[195], [15] drept criteriu de apreciere a algoritmilor de nvare. Am adaptat aici pentru
scopurile noastre un criteriu PAC pentru a determina eficacitatea schemei de aproximare
descris mai sus.

Def. 5.1: O schem de aproximare se spune c nva P-PAC o funcie f e F dac pentru
orice c > 0 i orice 1 > o > 0 i pentru P o distribuie arbitrar pe D, alege setul de date D i
calculeaz o funcie aproximant h e H astfel nct d
D
(h, f) < c cu o probabilitate mai mare
dect 1 - o. Clasa de funcii F este nvabil P-PAC dac schema de aproximare poate nva
P-PAC orice funcie f e F. Clasa F este PAC nvabil dac schema de aproximare poate
nva P-PAC clasa pentru orice distribuie P [149].

Trebuie s facem o clarificare a definiiei de mai sus. S observm c distana d este
arbitrar. Nu e nevoie ca aceasta s fie legat de distribuia P n conformitate cu care sunt
alese datele din mulimea D, ceea ce nu este valabil pentru distanele folosite n formulrile
clasice ale PAC.


V.2.2. Algoritmi de alegere a exemplelor


n paragrafele anterioare am introdus bazele nvrii pasive. Aceasta corespunde unui
antrenor pasiv care i alege exemplele n conformitate cu distribuia probabilistic P definit
pe domeniul D. Dac un astfel de antrenor pasiv i alege exemplele i produce o funcie
aproximant h astfel nct d
C
(h, f) < c i cu probabilitatea mai mare dect 1 - o, acesta
nseamn c a nvat P-PAC funcia f.

Def. 5.2: Numrul exemplelor de care are nevoie antrenorul pentru a nva funcia f se
numete complexitatea mulimii de antrenament.

O alternativ a nvrii pasive, o reprezint existena posibilitii de a permite
antrenorului de a-i alege exemplele, adic nvarea activ [56]. La nceput, mulimea de
antrenament i va furniza antrenorului cteva informaii privitoare la funcia int; n
particular, probabil l informeaz despre regiunile interesante sau dificil de nvat ale
funciei, sau regiunile unde eroarea de aproximare este mare i are nevoie de exemple
suplimentare. Pe baza acestui tip de informaii (alturi de alte informaii despre clasa de
funcii n general) antrenorul trebuie s fie capabil s decid de unde va fi ales urmtorul
exemplu (dat de antrenament).

Putem formaliza aceast noiune n felul urmtor: notm cu
{ }
T y D y f i N
i i i i i
= e = = ( , ) , ( ), ,2,..., x x x 1 mulimea de antrenament, setul de date
(coninnd N puncte) la care antrenorul are acces. Schema de aproximare acioneaz asupra
acestui set de date i alege o funcie h e H (care se potrivete cel mai bine cu datele conform
algoritmului A ce corespunde schemei de aproximare).

S notm cu C
i
, i K N =1, ( )
5
, o partiie a domeniului D i notm cu:

5
Numrul de regiuni K(N,) n care se mparte domeniul D de ctre N puncte date, depinde de geometria spaiului D i de
schema de partiionare folosit. Pentru axa real R partiionarea se face n intervale ca i n exemplul dat, iar K(N) = N + 1.
112

F
T { = e f F f y y
i i i i
( ) , ( , ) x x = e T} (5.3)

mulimea tuturor funciilor din F care trec prin punctele din mulimea de antrenament T.
Funcia int poate fi orice funcie din mulimea F
T
.

S definim mai nti un criteriu de eroare [149]:

e
C
(H, T, F) = sup d
C
(h, f), unde f e F
T
(5.4)



e
C
este o msur a erorii maxime pe care poate s o aib schema de aproximare (pe regiunea
C). Aceasta, evident depinde de date, de schema de aproximare i de clasa de funcii care
trebuie aproximat. Ea nu depinde de funcia int (cu excepia indirect, n sensul c datele
sunt generate de funcia int, dar aceast dependen este deja evideniat n expresia de mai
sus).

Avem astfel o schem de msurare a incertitudinii (eroarea maxim posibil) pe
diferite regiuni ale spaiului D. O posibil strategie [56] pentru a selecta noi exemple poate fi
ca pur i simplu s lum noi exemple n regiunea C
i
, unde eroarea este cea mai mare. S
presupunem c avem o procedur P care face acest lucru. P poate alege exemplul din regiunea
C n centrul regiunii sau s-l aleag dup orice alt metod. Acest lucru poate fi descris
algoritmic astfel [52]:

Algoritm activ A

1. [Iniializare] Se alege un exemplu (x
1
, y
1
) e T n acord cu procedura P.
2. [Obinerea de noi partiii] Se mparte domeniul D n regiuni C
1
,..., C
k(1)
pe baza acestui
exemplu.
3. [Se calculeaz incertitudinea] Se calculeaz e
C
i
, pentru fiecare i.
4. [Actualizarea general i condiia de oprire] Presupunem c la pasul j, domeniul D este
partiionat n regiunile C
i
, i = 1,..., K(j). Se calculeaz e
C
i
pentru fiecare i i n regiunea cu
eroarea cea mai mare se alege nc un exemplu n conformitate cu procedura P. Acesta este
punctul (x
j+1
, y
j+1
). Acest punct re-partiioneaz domeniul D. Dac eroarea maxim e
D
pe
ntregul domeniu D este mai mic dect c atunci algoritmul se oprete; altfel se reia de la
Pasul 2.

Algoritmul de mai sus este o posibil strategie activ. Oricum, acesta poate fi
optimizat pentru a ne da localizarea precis a urmtorului exemplu. S ne imaginm pentru un
moment, c antrenorul ntreb care este valoarea funciei n punctul x e D. Valoarea obinut
aparine mulimii: F
T
(x)
{ }
= e f f F
T
( ) x .
S presupunem c valoarea este y e F
T
(x). De fapt, antrenorul are acum un nou
exemplu, perechea (x, y) pe care o poate aduga la setul de date de antrenament T pentru a
obine un nou set mai larg de date ( ) y T T , x
*
= .
Schema de aproximare H poate aplica noul set de date la o nou funcie aproximant
h'. Se poate calcula:

e
C
(H, T', F) = sup (h', f), unde f e F
T
(5.5)
113

Evident e
D
(H, T', F) msoar acum eroarea maxim posibil privitor la noul set de
date. Aceasta depinde de (x, y). Pentru un x fixat noi nu tim valoarea lui y pe care ar trebui s
o cunoatem dac alegem punctul ca un nou exemplu. Prin urmare, un gnd firesc ar fi s
alegem cel mai nefavorabil caz, s presupunem c lum cea mai nefavorabil valoare pentru
y i s continum cu aceast valoare algoritmul. Aceasta ne va produce cea mai mare eroare
posibil pe care o putem obine alegndu-l pe x ca nou exemplu. Astfel eroarea (pe ntregul
domeniul de definiie D) este:


( )
( )
( )
{ } ( )
sup , ' , sup , , ,
y F
D
y F
D
T T
e H T F e H T y F
e e
=
x x
x (5.6)

Am dori s avem posibilitatea de a obine punctul x cu care se minimizeaz eroarea
maxim. Astfel, pe baza acestui argument, exemplul optim este:


( )
{ } ( )
x e H T y F
new
D
y F
D
T
=
e
e
arg min sup , , ,
x
x
x (5.7)

Aceasta reprezint strategia principal de alegere a noului exemplu.

Urmtorul algoritm este un algoritm optimal de nvare activ:


Algoritmul activ B (Optimal)

1. [Iniializare] Se alege un exemplu (x
1
, y
1
) n conformitate cu procedura P.

2. [Calculul noului exemplu] Se aplic expresia (5.7) i se obine un punct nou x
2
. Calculm
valoarea funciei n acest punct obinem y
2
i obinem un nou exemplu (x
2
, y
2
) care se
adaug mulimii de date de antrenament.

3. [Regula de actualizarea general i condiia de oprire a algoritmului] S presupunem c la
pasul j avem mulimea de date de antrenament T
j
(constnd din j exemple). Se calculeaz
x
j+1
conform expresiei (5.7) i calculnd valoarea funciei n punctul x
j+1
obinem un nou
exemplu (x
j+1
, y
j+1
) i astfel un nou set de date i o nou funcie aproximant. n general, ca
i n algoritmul A, algoritmul se oprete atunci cnd eroarea total e
D
(H, T
k
, F) este mai
mic dect precizia c.

Conform procesului de calcul, este clar c dac alegem un alt exemplu dect cel
obinut prin regula (5.7), obinem o valoare y i o funcie consistent cu toate punctele din
setul de date (inclusiv cu noua dat), ceea care ar fora antrenorul s fac o eroare mai mare
dect dac antrenorul ar alege punctul x
new
(conform (5.7)). n acest sens algoritmul B este
optimal. El difer de asemenea, de algoritmul A prin faptul c nu are nevoie de o schem de
partiionare sau de o procedur P de alegere a unui exemplu ntr-o anumit regiune a spaiului.
Oricum, calculul lui x
new
inerent n algoritmul B este mai costisitor din punct de vedere
computaional dect cel din algoritmul A.
Merit s observm c, pentru formularea noastr important este calculul erorii e
D
(H,
T, F). Astfel, am notat mai devreme c aceasta este o msur a erorii maxime posibile pe care
schema de aproximare este forat s o fac n aproximarea funciei din F folosind setul de
date T. Dac dorim o schem de aproximare independent, aceasta se poate obine
minimiznd e
D
relativ la mulimea tuturor schemelor posibile:
114


( ) inf
H
H D F , ,
(5.8)


Orice schem de aproximare poate s genereze o eroare cel puin tot att de mare ca
cea din expresia de mai sus. O alt limitare este cea impus erorii e
D
ca s fie independent de
mulimea de date.
Astfel, avnd o schem de aproximare H, dac setul de date T este ales arbitrar, se
poate calcula probabilitatea:

P{e
D
(H, T, F) > c} (5.9)

Dac avem o ntr-o schem de aproximare independent de date:

( )
{ }
P H T F
H
inf , , > c (5.10)


V.3. nvare activ. Aproximarea funciilor continue monoton
cresctoare i mrginite


S considerm urmtoarea clas de funcii definite pe intervalul [0, 1] c R cu valori n
R:

( ) { } y x y f x f R x M x f f F > > e s s = ) ( ) ( , , 0 (5.11)

Pe baza celor prezentate n paragraful anterior va trebuie s specificm termenii H, d
C

i procedura P pentru partiionarea domeniului D = [0, 1]. Pentru nceput vom presupune c
schema de aproximare H este metoda spline de ordinul I [31]. Aceast metod determin
funcia monoton care interpoleaz liniar datele din setul de date D.

O cale natural de partiionare a domeniul D este mprirea lui n intervale:

[0, x
1
), [x
1
, x
2
),..., [x
i
, x
i+1
),..., [x
n
, 1] (5.12)

Metrica d
C
pe care o vom considera este metrica L
p
dat de relaia:

( )
d f f f f dx
C
p
p
( , )
1 2 1 2
0
1
1
=
}
(5.13)

Interesul nostru este de a compara complexitatea mulimii de antrenament n nvarea
pasiv i activ. Vom face acest lucru lund n considerare o distribuiei uniform, adic
antrenorul pasiv i va alege exemplele uniform din domeniul su [0, 1]. Pe de alt parte, vom
arta cum rezultatele generale din paragraful precedent se transform ntr-un algoritm activ
specific de alegere a exemplelor i vom obine limite pentru calculul complexitii mulimii de
antrenament.


115
V.3.1. Limita inferioar pentru nvarea pasiv


Teorema 5.1: Orice algoritm de nvare pasiv (mai exact, orice schem de aproximare care
i extrage exemplele uniform i interpoleaz datele pentru orice funcie mrginit arbitrar)
va avea nevoie de cel puin
|
.
|

\
|

|
.
|

\
|
o c
1
ln
2 2
1
p
M
exemple pentru a nva P-PAC clasa de funcii,
unde P este o distribuie uniform.

Demonstraie: S considerm distribuia uniform pe [0, 1] i o subclas de funcii care este
nul pe intervalul ] ) / 2 ( 1 , 0 [
p
M A c = e F. S presupunem c antrenorul pasiv extrage
uniform l exemple oarecare.
Atunci toate exemplele vor fi extrase din intervalul A cu probabilitatea (1 - (2c / M)
p
)
l
.
Rmne s artm c pentru subclasa considerat, oricare ar fi funcia int furnizat de
antrenor, se poate genera o eroare mai mare.
Presupunem c antrenorul consider c funcia aproximant este h. S notm cu:


( )
h x dx
p
M
p
p
( )
(1 ( / ) ,
}
=
2 1)
1
c
_ (5.14)

Avem relaia evident: 0 s _ s (M
p
(2c/M)
p
)
1/p
= 2c.

Dac _ < c atunci se poate considera c funcia int este:

g x
x M
M x M
p
p
( )
[ , ( / ) ]
, [ ( / ) , ]
=
e
e

0 0 1 2
1 2 1
,

c
c
(5.15)

Pe de alt parte, dac _ > c atunci se poate considera c funcia int este g = 0.

n primul caz din inegalitatea triunghiului rezult:


( )
c _ c
c c
c
> = |
.
|

\
|
|
.
|

\
|
>
> |
.
|

\
|
> =
} }
} }

2
) , (
1
) 1 , ) / 2 ( 1 (
1
) 1 , ) / 2 ( 1 (
1
] 1 , ) / 2 ( 1 [
1
] 1 , 0 [
p
M
p p
M
p
p
M
p
p
p
p p
p
dx h dx M
dx h g dx h g g h d
(5.16)

n al doilea caz avem:

( ) c _
c
> = |
.
|

\
|
> =
} }

p
M
p
p
p
p
dx h dx h g g h d
1
) 1 , ) / 2 ( 1 (
1
] 1 , 0 [
0 ) , ( (5.17)

Trebuie s aflm ct de mare trebuie s fie l, astfel nct evenimentul ca toate
exemplele s fie extrase din A s aib o probabilitate mai mic dect o.
Pentru ca s avem o c >
l p
M ) ) / 2 ( 1 ( trebuie ca
|
.
|

\
|

<
o c
1
ln
) ) / 2 ( 1 ln(
1
p
M
l .
116
Avem inegalitatea cunoscut:

pentru
) 1 ln(
1
2
1
,
2
1
o o
o

s <
folosind aceast inegalitate i considernd o = (2c/M)
p
obinem c pentru
p
M
1
2
1
2
|
.
|

\
|
< c avem
|
.
|

\
|


<
|
.
|

\
|
o c c
o
1
ln
) ) / 2 ( 1 ln(
1
) ln(
2 2
1
1
p
p
M
M
.
Deci, n afara cazului cnd l
M
p
>
|
\

|
.
|
|
\

|
.
|
1
2 2
1
c o
ln , probabilitatea ca toate exemplele s
fie extrase din A este mai mare dect o. Prin urmare, antrenorul pasiv este obligat s fac o
eroare de cel puin c, cu o probabilitatea mai mare dect o, astfel nct nvarea PAC nu poate
avea loc.


V.3.2. Algoritmul nvrii active (AI A)


n seciunea anterioar am calculat limita inferioar pentru nvarea PAC pasiv a
clasei de funcii considerate, relativ la o distribuie uniform. n cele ce urmeaz, vom obine
o strategie pentru nvarea activ care va alege exemplele pe baza informaiilor despre
funcia int din exemplele anterioare. Vom determina formal o limit superioar a numrului
de exemple pe care-l cere nvarea PAC a clasei de funcii. Ct timp limita superioar este
cazul cel mai nefavorabil, numrul efectiv de exemple pe care le cere aceast strategie difer,
depinznd n mare msur de funcia de aproximat. Vom demonstra empiric performana
acestei strategii pentru diferite tipuri de funcii pentru a pune n eviden aceast diferen.

S considerm o schem de aproximare de felul celei descrise mai nainte care se
ncearc s aproximeze funcia int f e F pe baza setului de date D.


x
i
0
y
i
x
i+1
y
i+1

Fig. 5.1: Mulimea F
D
const din toate funciile coninute n dreptunghiurile reprezentate i
care trec prin punctele de antrenament (de exemplu funciile reprezentate cu linie
punctat). Funcia aproximant h este reprezentat cu linie continu.

117
Putem presupune, fr a pierde generalitatea, c cunoatem valoarea funciei n
punctele x = 0 i x = 1. Punctele {x
i
,| i = 1,2,...,N} mpart domeniul n N + 1 intervale C
i
(i =
1,2,...,N) unde C
i
= [x
i
, x
i+1
] (x
0
= 0, x
N +1
= 1). Monotonia funciilor din F ne permite s
obinem nite dreptunghiuri care delimiteaz valorile pe care funcia int le poate lua n
punctele din domeniul su de definiie. Mulimea tuturor funciilor care se ncadreaz n
aceste dreptunghiuri este F
T
.
S calculm mai nti e
Ci
(H, T, F) pentru un interval C
i
. Pe acest interval funcia este
constrns s se ncadreze n dreptunghiul corespunztor. n Fig. 5.2. este reprezentat la o
scar mrit un astfel de dreptunghi.

(x
i+1
, y
i+1
)
(x
i
, y
i
)
h
B
A
0


Fig. 5.2: Desenul mrit al intervalului C
i
= [x
i
, x
i+1
]. Eroarea maxim pe care o poate avea
schema de aproximare este indicat de zona haurat. Aceasta se ntmpl atunci
cnd considerm c funcia int are valoarea y
i
pe tot intervalul.

Eroarea maxim pe care schema de aproximare o poate avea (indicat de zona
haurat) este dat de relaia:


( ) p
p p
B
p
C
p
i
p
AB
dx x
B
A
dx x f h
p
i
1
1 1
0
1
) (
1
+
=
|
|
.
|

\
|
|
.
|

\
|
= |
.
|

\
|

} }
(5.18)

unde A = f (x
i+1
) - f (x
i
) iar B = (x
i+1
- x
i
).

Evident eroarea pe ntregul domeniu este:

=
=
N
i
p
C
p
D
i
e e
0
(5.19)

Calculul lui e
C
este necesar pentru a implementa o strategie activ motivat de
algoritmul A, prezentat anterior. Pentru aceasta trebuie s alegem un exemplu din intervalul
cu eroarea cea mai mare; adic avem nevoie de o procedur P pentru a determina cum s
obinem un nou exemplu n acest interval, i anume, alegem noul exemplu n mijlocul
intervalului cu eroarea cea mai mare obinnd urmtorul algoritm:

118
Algoritmul de alegere a exemplelor i de nvare activ
1. [Pasul iniial] Aflm valorile funciei int n punctele x = 0 i x = 1. La acest pas, domeniul
[0,1] este compus dintr-un singur interval: [0,1].
Calculm ( ) ) 0 ( ) 1 ( 0 1
) 1 (
1
1
1 1
f f
p
E
p
p

+
= .
Fie T
1
= E
1
.
Dac T
1
< c
Atunci
STOP i funcia aproximant este funcia liniar care interpoleaz datele;
Altfel
considerm mijlocul intervalului [0,1] i partiionm domeniului n dou intervale
0
1
2
,

|
.
|
1
2
1 ,
|
\

(
.
2. [Actualizarea general i condiia de oprire a algoritmului] Presupunnd c la pasul al k-
lea, partiia intervalului [0,1] este [x
0
= 0, x
1
), [x
1
, x
2
),..., [x
k-1
, x
k
= 1], calculm eroarea
normalizat ( ) ) ( ) (
) 1 (
1
1 1
1
1

+
=
i i i i i
x f x f x x
p
E
p
p
, i = 1, 2, , k. Mijlocul intervalului
care are eroarea E
i
maxim este luat n considerare pentru alegerea noului exemplu. Se
calculeaz eroarea total normalizat T E
k
p
i
k
i
p
=
|
\

|
.
|
=

1
1
, procesul se termin cnd T
k
s c.
Funcia aproximant h pentru fiecare pas la este o interpolare liniar a datelor alese pn
atunci, iar funcia aproximant final h este obinut dup terminarea ntregului proces.
S ne imaginm c alegem ca nou exemplu punctul x e C
i
= [x
i
, x
i+1
] i obinem
valoarea y e F
T
(x) (adic y este n dreptunghiul corespunztor) cum este reprezentat n Fig.
5.3.

C
i
C
i1
C
i2
x
x
i
x
i+1
y
i
y
y
i+1
(x
i+1,
y
i+1
)
(x
i
,
,
y
i
)


Fig. 5.3: Situaia cnd alegem din intervalul C
i
un nou exemplu. Acesta mparte intervalul
C
i
n dou sub-intervale i cele dou zone haurate indic noile restricii ale
funciei.
119

Acesta adaug un nou interval prin mprirea intervalul C
i
n dou sub-intervale
1
i
C i
2
i
C unde
1
i
C = [x
i
, x) i
2
i
C = [x, x
i+1
]. Mai obinem, de asemenea, dou dreptunghiuri mai mici
n interiorul celui iniial n care funcia este acum constrns s se ncadreze. Eroarea
msurat prin e
C
poate fi recalculat lund n considerare acestea.

Obs. 5.1: Adugarea unui nou exemplu (x, y) nu schimb valoarea erorii pe nici un alt
interval. Ea are efect doar asupra intervalului C
i
care a fost partiionat. Eroarea total pe tot
acest interval se exprim prin relaia:


( ) ( )
( )
p
p
p p
p
i i
i
p
i i
p
r A z B zr G
y x f x f
x x x f y x x
p
F D H e
` 1
1
) ) )( ( (
) )) ( ) ( (
) ( )) ( )( (
1
1
, ' ,
1
1
1
+ =
= +
+ +
|
|
.
|

\
|
+
=
+
+
i
C
(5.20)

unde am folosit notaiile:
z = x - x
i
; r = y - f (x
i
); A = f(x
i+1
) - f(x
i
) i B = x
i+1
- x
i
. Evident 0 s z s B i 0 s r s A.

S considerm lema:

Lema 5.1: ( )
p
p p
A r B z
r A z B zr G
B
1
] , 0 [ ] , 0 [
) )( ( sup min arg
2
+ =
e e

Demonstraie: Fie ze[0, B]. Exist trei cazuri care trebuie luate n considerare:

Cazul 1: z > B/2, atunci fie z = B/2 + o unde o > 0. Obinem:

( )
( ) ( )
p
p p
A r
p p
A r
r A z B zr G
r A z B zr G
p
1
] , 0 [
] , 0 [
) )( ( sup
) )( ( sup
1
+ =
= +
e
e


( )
( )
) ) ( ( ) ) ( ( 2 / sup
) )( 2 / ( ) 2 / ( sup
) )( ( sup
] , 0 [
] , 0 [
] , 0 [
p p p p
A r
p p
A r
p p
A r
r A r r A r B G
r A B r B G
r A z B zr G
+ + =
= + + =
= +
e
e
e
o
o o

Pentru r = a expresia creia i s-a aplicat supremumdevine:

) ) ( ( ) ) ( ( 2 /
p p p p
r A r r A r B + + o = (B/2 + o) A
p
.

Pentru orice alt r e [0, A] trebuie s artm c:

) ) ( ( ) ) ( ( 2 /
p p p p
r A r r A r B + + o s (B/2 + o) A
p

sau

) )) / ( 1 ( ) / (( ) )) / ( 1 ( ) / (( 2 /
p p p p
A r A r A r A r B + + o s (B/2 + o)

Fie | =
r
A
(evident | e [0,1]) i s observm c (1 - |)
p
s 1 - |
p
i |
p
- (1 - |)
p
s 1,
120
inegalitatea de mai sus fiind demonstrat).
Prin urmare: A B G r A z B zr G
p p p p
A r
+ = +
e
1 1
] , 0 [
) 2 / ( ) ) )( ( ( sup o

Cazul 2: Fie z = B/2 - o pentru o > 0. Analog ca n Cazul 1 se arat c:
A B G r A z B zr G
p p p p
A r
+ = +
e
1 1
] , 0 [
) 2 / ( ) ) )( ( ( sup o

Cazul 3: Fie z = B/2. Atunci:

p p p
A r
p
p p p
A r
r A r B G
r A z B zr G
1
] , 0 [
1
1
] , 0 [
) ) ( ( sup ) 2 / (
) ) )( ( ( sup
+ =
= +
e
e

n acest caz, expresia de mai sus se reduce la GA(B/2)
1/p
. Considernd aceste trei
cazuri, lema este demonstrat.

Lema de mai sus mpreun cu Obs.5.1 dovedete c alegerea optimal a noului punct
din intervalului C
i
este mijlocul intervalului. n particular, avem:



| | ( ) ( ) | |
( ) ( )
( ) ( ) ( )
( )
p
C
i i
p
i i
p
C x f x f y x x x
F T H e
x f x f
x x
p
F y x T H e
i
i i i i i
1
1
1
1
1
, ,
2
, ,
2 1
1
, . , sup min
1 1
=
= |
.
|

\
|
|
|
.
|

\
|
+
=
=
+
+
e e
+ +

(5.21)

Cu alte cuvinte, dac antrenorul este obligat s-i aleag urmtorul exemplu n
intervalul C
i
, acesta va asigura minimizarea erorii. n particular, dac eroarea pe intervalul C
i

este
i
C
e , eroarea pe aceast regiune este redus dup alegerea exemplului n mijlocul acestui
interval i poate avea valoarea maxim:
p
C
i
e
1
2 / .

Care este ns intervalul din care trebuie s alegem un nou exemplu pentru a minimiza
eroarea maxim posibil pe ntreg domeniul D? S observm c dac antrenorul alege
urmtorul exemplu n intervalul C
i
atunci:

( ) ( ) ( )
( )
p
N
i j j
p
C
p
C D F y C x
F T H e
F T H e F y x T H e
i
j T i
1
, 0
2
, ,
, , , . , sup min
|
|
.
|

\
|
+ =

= =
e e


Din descompunerea de mai sus, este clar c exemplul optimal conform cu algoritmul
B, este mijlocul intervalului C
j
care are eroarea maxim e
Cj
(H, T, F) pe baza datelor de
antrenament T. Astfel putem enuna urmtoarea teorem [56]:

Teorema 5.2: Algoritmul AI A (Algoritmul nvrii Active) este un algoritm optimal relativ
la clasa de funcii monotone i mrginite.

121
Ne vom concentra atenia asupra determinrii numrului de exemple de care are
nevoie algoritmul AI A pentru a nva funcia int necunoscut cu precizia c. Pentru aceasta
s considerm urmtoarea teorem [56]:

Teorema 5.3: Algoritmul AI A converge n cel mult
p
M
|
.
|

\
|
c
pai.

Demonstraie: Vom da o schi a demonstraiei acestei teoreme.

Mai nti, s considerm o gril uniform de puncte distincte aparinnd domeniului [0, 1].
Acum s ne imaginm c antrenorul activ lucreaz exact aa cum a fost descris mai sus, dar
cu o mic deosebire, el nu poate s aleag dect puncte aflate pe gril. Astfel la al k-lea pas, n
loc de a alege mijlocul intervalului cu cea mai mare eroare, va alege punctul din gril care
este cel mai apropiat de mijloc. Evident, intervalele obinute la pasul k sunt de asemenea
separate de punctele din gril. Dac antrenorul a ales toate punctele din gril, atunci eroarea
maxim posibil pe care o poate face este mai mic dect c.
Pentru a dovedi aceast ultim aseriune, fie o = c/M i s considerm mai nti un
interval: [ko, (k+1)o].
tim c urmtoarele relaii sunt adevrate pe acest interval:

f (ko) = h(ko) s f (x), h(x) s f ((k +1)o) = h((k +1)o)

Astfel:
| f (x) - h(x) | s f ((k + 1)o) - f (ko) i


( )
( ) o o o
o o
o
o
o
o
+ s
+ s
} }
+ +
p
k
k
p
k
k
p
k f k f
dx k f k f dx x h x f
) ( ) ) 1 ((
) ( ) ) 1 (( ) ( ) (
) 1 ( ) 1 (

Deci:

p p p
p
p p p
p p p
M f f f f
f f f f f f
f f f f f f
dx h f dx h f dx h f
o o o
o o o o o
o o o o o o
o o
s s +
+ + + s +
+ + + + s
s + + =
} } }

)) 0 ( ) 1 ( ( )) 1 ( ) 1 (
) ( ) 2 ( ) 0 ( ) ( ( ) )) 1 ( ) 1 ( (
)) 2 1 ( ) 1 ( ( )) ( ) 2 ( ( )) 0 ( ) ( ((
] 1 , 1 [ ) , 0 [ ] 1 , 0 [


Dac o = (c/M)
p
eroarea dup norma L
p
poate fi cel mult ( ) c s
}
p
p
dx h f
1
] 1 , 0 [
.

Astfel antrenorul activ trece de la un pas la altul alegnd exemple din grila de puncte.
Convergena poate apare la orice pas, dar evident c dup ce s-au luat n considerare toate
valorile funciei int necunoscute n toate punctele grilei, eroarea este probabil mai mic
dect c i algoritmul se poate opri n acest moment.


V.3.3. Simulri experimentale i alte investigaii


Obiectivul nostru este s caracterizm performanele algoritmului AI A ca o strategie
de nvare activ. S ne reamintim c algoritmul AI A este o strategie adaptiv de alegere a
122
exemplelor i numrul de exemple de care are nevoie pentru a converge depinde de natura
specific a funciei int. Am calculat deja limita superioar a numrului de exemple de care
are nevoie n cel mai nefavorabil caz. Vom ncerca n cele ce urmeaz s analizm modul n
care strategie difer de alegerea aleatoare i echidistant a exemplelor (echivalent cu
nvarea pasiv) fa de alegerea exemplelor cu ajutorul algoritmului AI A (echivalent cu
nvarea activ). Am efectuat simulri pe funcii monoton cresctoare arbitrare pentru a
caracteriza mai bine condiiile n care strategia activ poate s depeasc ambele strategii
pasive cu alegerea exemplelor aleator i cea cu alegerea uniform a exemplelor.

Distribuia punctelor selectate cu algoritmul AIA

Aa cum s-a menionat anterior, punctele selectate de algoritmul AIA depind de
specificul funciei int.
De observat felul n care se aleg exemplele. n regiunile unde funcia se schimb mai
mult (astfel de regiuni pot fi considerate ca avnd o mai mare densitate informaional i prin
urmare mai greu de nvat), algoritmul AI A alege mai multe exemple.
n regiunile unde funcia nu se schimb prea mult (corespunznd zonelor de densitate
de informaional mic mai uor de nvat), algoritmul AIA alege mai puine exemple. De
fapt, densitatea punctelor par s urmeze derivata funciei int aa cum se vede din Fig. 5.4.



Fig. 5.4.: Linia mai deschis indic densitatea datelor alese pentru un exemplu de funcie monoton
cresctoare. Linia neagr indic derivata aceleai funcii.




V.4. nvare activ. Aproximarea funciilor derivabile cu
derivata mrginit


Fie familia de funcii derivabile, cu derivata mrginit:


)
`

s = d
dx
df
x f f F R si derivabila este ) ( | ] 1 , 0 [ : (5.22)
123

S observm cteva lucruri despre aceast clas. Mai nti nu exist nici o restricie
direct referitor la valorile pe care le pot lua funciile din clasa F. Cu alte cuvinte,
> - e M f 0, F , x e [0,1] pentru care f (x) > M.
Oricum derivata nti este mrginit, ceea ce nseamn c o funcie oarecare care
aparine lui F nu poate avea variaii mari.
Vrem s investigm n continuare posibilitatea producerii unei strategii de nvare
activ a acestei clase. Mai nti s deducem limita inferioar a numrului de exemple de care
are nevoie un antrenor (indiferent dac este pasiv sau activ) pentru a nva aceast clas cu o
precizie c. De asemenea, vom deduce de asemenea limita superioar a numrului de exemple
pe care le alege algoritmul activ.
S specificm cteva elemente necesare pentru aceast clas de funcii. Schema de
aproximare H este o schem de aproximare spline de ordinul I, domeniul D = [0, 1] este
partiionat n intervale de ctre datele din coninute n intervalele : [x
i
, x
i+1
], iar metrica d
C
este
o metric L
1
dat de relaia


}
=
C
C
dx x f x f f f d ) ( ) ( ) , (
2 1 2 1


Rezultatele din aceast seciune pot fi extinse la o norm L
p
dar ne mrginim la o
metric L
1
pentru a simplifica prezentarea.

V.4.1. Limita inferioar a numrului de exemple

Teorema 5.4: Orice algoritm de nvare (indiferent dac este pasiv sau activ) trebuie s
aleag cel puin O(d / c) exemple (indiferent dac sunt alese aleator, uniform sau alese cu o
strategie activ) pentru a nva PAC clasa F.

Demonstraie: Prezentm n cele ce urmeaz o schi a demonstraiei [149].

S presupunem c antrenorul alege m exemple (pasiv, n conformitate cu o distribuie, sau
activ).
Antrenorul poate s obin o eroare mai mare sau egal cu c dac alege mai puin de O(d/c)
exemple. S presupunem c n fiecare din cele m puncte care au fost alese de ctre antrenor,
funcia are valoarea 0. Astfel, antrenorul este constrns s genereze o funcie aproximant
aparinnd lui F i care aproximeaz funcia int cu precizia c. Cele m puncte alese de
antrenor mpart regiunea [0, 1] n (cel mult) m + 1 intervale diferite. Fie lungimile acestor
intervale: b
1
, b
2
,..., b
m+1
. Avem urmtoarea Lem:

Lema 5.2: Exist funcii f e F astfel nct f interpoleaz datele i

}
+
>
] 1 , 0 [
) 1 ( 4 m
kd
dx f
unde k este o constant arbitrar aproape de 1.

Demonstraie: S considerm Fig. 5.5. Funcia f este indicat de linia continu. Aa cum se
vede, f i schimb semnul n fiecare punct x = x
i
. Fr a pierde generalitatea s considerm
un interval [x
i
, x
i+1
] de lungime b
i
. Fie mijlocul intervalului z = (x
i
+ x
i+1
)/2. Pe acest interval
funcia ia valoarea:

124

+ e

+ e
e
=
+ +
] , [ ,
2
) (
2
) (
] , [ ), (
] , [ ), (
) (
2
1 1
o o
o
o
o
o
z z x
b d z x d
x z x x x d
z x x x x d
x f
i
i i
i i
pentru
pentru
pentru


Prin calcule simple obinem:


( )
4 2 2
2 2
2
1 o o
o
o
= |
.
|

\
|
+ |
.
|

\
|
>
}
+
i i i
x
x
b d b
b
b
d dx f
i
i



0
x
i
x
i+1
z
b
i
1


Figura 5.5:. Construcia funciei care satisface lema.

Evident, o poate fi ales mic, astfel nct s avem:

f dx
kdb
i
x
x
i
i
>
+
}
2
4
1


unde k este aproape de 1 aa cum am dorit.

Considernd funcia pe ntregul interval [0,1] obinem:


}

+
>
1
0
1
2
4
m
i
i
b
kd
dx f

Acum considerm urmtoarea lem pe care nu o demonstrm deoarece demonstraia
este elementar, folosindu-se principiul induciei.

125
Lema 5.3: Pentru o mulime de numere reale b
1
,..., b
m
astfel nct b
1
+ b
2
+ ... + b
m
= 1 este
adevrat urmtoarea inegalitate:

b b b
m
m 1
2
2
2 2
1
+ + + >

S presupunem c antrenorul alege o funcie aproximant h.
Fie _ =
}
] 1 , 0 [
dx h . Dac _ > c, se poate considera funcia int f = 0. n cazul acesta
c _ > =
}
1
0
dx h f . Pe de alt parte, dac _ < c, putem considera pe f (ca mai sus). n acest
caz, _
+
= >
} } }
) 1 ( 4
1
0
1
0
1
0
m
kd
dx h dx f dx h f .
Evident, dac m < (kd/8c) - 1, antrenorul va alege o aproximant cu o eroare mai mare
dect c. n orice situaie antrenorul este obligat s aleag o aproximant cu o eroare egal sau
mai mare cu c, dac sunt alese mai puin de O(d / c) exemple (indiferent cum sunt alese aceste
exemple).

V.4.2. Obinerea unei strategii optimale de alegere a exemplelor

n Fig. 5.6. am reprezentat o mulime date de antrenament coninnd informaii despre
o funcie int necunoscut. Se tie c funcia are derivata nti mrginit de d, deci este clar
c funcia int este obligat s fie cuprins n paralelogramele prezentate n figur. Pantele
laturilor sunt d respectiv -d. Astfel, F
T
conine toate funciile care sunt coninute n interiorul
paralelogramelor i interpoleaz setul de date.
Putem acum s calculm eroarea schemei de aproximare pe orice interval C (dat de
relaia e
C
(H, T, F)) pentru acest caz. S amintim c schema de aproximare H este o schem
spline de ordinul I, i c setul de date de antrenament T const din puncte de forma (x, y).
Fig. 5.7. prezint situaia pe un interval particular C
i
= [x
i
, x
i+1
]. Eroarea maxim pe
care schema de aproximare H o poate avea pe acest interval este dat de jumtate din aria
paralelogramului (deci de aria zonei haurate).

e
Ci
(H, T, F) =
}

=
e
i
T
C
i i
F f
d
A B d
dx f h
4
sup
2 2 2
(5.23)

unde A
i
= | f (x
i+1
) - f (x
i
)| i B
i
= x
i+1
- x
i
.


126
0 x
i
y
i
x
i+1
y
i+1


Fig. 5.6: O descriere a situaiei pentru un o mulime de date de antrenament oarecare. Setul
de funcii F
T
const din toate funciile care se cuprind n paralelogramele
prezentate i trec prin punctele mulimii de antrenament (de exemplu funciile
reprezentate cu linie ntrerupt). Funcia de aproximat (int) este reprezentat
cu linie continu.


B
y
i+1
A
h
0
y
i
x
i
x
i+1
C
i


Fig. 5.7:.Versiunea mrit a intervalului C
i
. Eroarea maxim pe care o poate avea
schema de aproximare este indicat de zona haurat.

Evident, eroarea maxim pe care schema de aproximare o poate avea pe ntreg
domeniul de definiie D este dat de:

e
D
(H, T, F) = sup
f F C
j
n
C
j
n
T j
j
h f dx e
e
= =
=

0 0
(5.24)
Calculul erorii e
C
este foarte important pentru elaborarea unei strategii active de
alegere a exemplelor. S ne imaginm c alegem punctul x din intervalul C
i
ca un nou
127
exemplu, valoarea y aparinnd deci lui F
T
(x). Acesta adaug nc un interval i mparte
intervalul C
i
n dou intervale
1
i
C i
2
i
C , cum este prezentat n Fig.5.8.
Obinem, de asemenea, dou paralelograme corespunztoare mai mici, n interiorul
crora este cuprins funcia int.

(x
i+1
,y
i+1
)
(x
i
,y
i
)
x
C
i
C
i1
C
i2
0

Fig. 5.8.: Situaia cnd n intervalul C
i
este ales un nou exemplu. Acesta mparte intervalul
n dou sub-intervale i cele dou zone haurate indic noile constrngeri ale
funciei.

Adugarea noului punct la setul de date ( ) y x T T , ' = ne cere s refacem funcia
aproximant. De asemenea, se cere actualizarea erorii e
C
, adic acum trebuie s calculm
e
C
(H, T', F).
Mai nti observm c adugarea noului punct la setul de date nu afecteaz eroarea pe
nici un alt interval, n afara celui divizat de ctre acesta, C
i
. S observm c paralelogramele
(a cror arie dau eroarea pe fiecare interval) nu sunt afectate de noul punct.
Astfel:

e
C
j

(H, T', F) = e
C
i

(H, T, F) = 1/(4d)(d
2
B
j
2
- A
j
2
) pentru j = i. (5.25)

Pentru intervalul C
i
, eroarea total este calculat acum astfel: jumtate din suma ariilor
celor dou paralelograme (paralelogramele haurate n Fig.5.8.):

e
Ci
(H, T', F) = (1/4d)((d
2
u
2
- v
2
) + (d
2
(B
i
- u)
2
- (A
i
- v)
2
)) =
= 1/(4d)((d
2
u
2
+ d
2
(B
i
- u)
2
) - (v
2
+ (A
i
- v)
2
)) (5.26)
unde u = x - x
i
, v = y - y
i
.
S observm c ue[0, B
i
] pentru x
i
s x s x
i+1
.
Oricum, fiind un punct x fixat (acesta fixeaz valoarea lui u), valorile posibile pe care
v le poate lua sunt constrnse de geometria paralelogramului. n particular, v se poate afla
128
doar n interiorul paralelogramului. Pentru un x fixat, tim c F
T
(x) reprezint mulimea
valorilor posibile pentru y.
Deoarece v = y - y
i
este clar c v e F
T
(x) - y
i
. Evident, dac y < y
i
obinem v < 0,
i A
i
- v > A
i
.
Analog, dac y > y
i+1
obinem c v > A
i
.


S enunm urmtoarea lem:

Lema 5.4: ) , ( sup min arg
2
1 } ) ( { v B] [0, u
T
v u H
B
i
y x e e
= (5.27)
unde H
1
(u,v) = ((d
2
u
2
+ d
2
(B - u)
2
) - (v
2
+ (A - v)
2
))

( ) ) , ( sup min
2
1
2 } ) ( { v B] [0, u
2 2 2
v u H A B d
i T
y x e e
= (5.28)
unde H
2
(u,v) = ((d
2
u
2
+ d
2
(B - u)
2
) - (v
2
+ (A - v)
2
)).

Folosind lema de mai sus n ecuaia (5.26), observm c:

min
xeCi

( )
sup
y F x
T
e
e
Ci
(H, T (x, y), F) = 1/(8d)(d
2
B
i
2
- A
i
2
) =
= 1/2 e
Ci
(H, T, F)

Cu alte cuvinte, alegnd mijlocul intervalului C
i
ca nou exemplu avem garantat
reducerea erorii la jumtate.
Aceasta ne permite s formulm un algoritm de nvare activ care este optimal n
sensul implicat n formularea noastr.


V.4.3. Algoritmul de nvare activ (AIA)

1. [Pasul iniial] Se afl valorile funciei n punctele x = 0 i x = 1. La acest pas domeniul D =
[0,1] este compus dintr-un singur interval: C
1
= [0,1]. Calculm eroarea
( ) ( )
( )
e
d
d f f
C
1
1
4
1 0
2
2
= i e
D
=
1
C
e .
Dac e
D
< c, atunci STOP i funcia de aproximare este interpolarea liniar a punctelor;
altfel calculm mijlocul intervalului pentru a partiiona domeniul n dou sub-intervale
[0, 1/2), [1/2, 1].
2. [Actualizarea general a datelor i condiia de oprire a algoritmului] La pasul k,
presupunem c intervalului [0, 1] este partiionat astfel:
[x
0
= 0, x
1
), [x
1
, x
2
),..., [x
k-1
, x
k
= 1]
Pentru fiecare i = 1,2,,k calculm eroarea:
e
Ci
= 1/(4d)(d
2
(x
i
- x
i-1
)
2
- |y
i
- y
i-1
|
2
)
Mijlocul intervalului cu eroarea cea mai mare va fi utilizat pentru a alege noul punct.
Eroarea total e e
D C
i
k
i
=
=

1
este calculat la fiecare pas; procesul se termin cnd e
D
< c.
Funcia de aproximare h la fiecare pas este o interpolare liniar a tuturor punctelor din setul
de date, iar aproximanta final se obine dup terminarea ntregului proces.

129
S artm c exist o limit superioar a numrului de exemple de care are nevoie
algoritmul AI A pentru a nva o clas de funcii.

Teorema 5.5: Algoritmul AI A va nva PAC clasa de funcii o eroare mai mic dect
utiliznd cel mult
d
4
1
c
+ exemple.

Demonstraie: S presupunem c avem o gril cu n puncte echidistante, aflate la distana de
1/(n-1) unul de cellalt. Antrenorul nu poate alege puncte doar de pe gril. Astfel, la pasul k,
n loc s se aleag mijlocul intervalului cu eroarea cea mai mare, se va alege punctul de pe
gril cel mai apropiat de acest mijloc.
S presupunem c au fost alese n acest fel toate punctele de pe gril: avem astfel n-1
intervale i conform argumentelor aduse mai sus, eroarea maxim pe fiecare interval este
limitat de:

1
4
1
1
1
4
1
1
2
2
1
2
2
2
d
d
n
y y
d
d
n
i i

|
\

|
.
|
|
\

|
.
| s

|
\

|
.
|


Dac exist (n-1) de astfel de intervale atunci eroarea total este limitat de:

( ) n
d
d
n d n

|
\

|
.
| =

|
\

|
.
| 1
1
4
1
1
1
4
1
1
2
2


Este uor de artat c pentru n > d / (4c) +1, eroarea maxim este mai mic dect c.
Astfel, antrenorul nu are nevoie s aleag mai mult de d / (4c) +1 exemple pentru a nva
funcia cu precizia c. De menionat c antrenorul va identifica funcia int cu precizia c cu
probabilitatea 1, urmnd strategia descris de algoritmul activ AIA.

Acum avem o limit inferioar i una superioar a numrului de exemple necesare
pentru nvarea PAC a clasei de funcii.


V.4.4. Distribuia exemplelor selectate

Algoritmul activ AI A alege exemplele adaptiv pe baza exemplelor selectate anterior.
Astfel distribuia exemplelor din domeniul D al funciei depinde de funcia int arbitrar.
S observm c algoritmul alege (exemple mai puine n locurile n care funcia int
este dreapt i mai multe n locurile unde funcia int are o pant mai abrupt. Cu alte
cuvinte, dac funcia are valori apropiate n punctele x
i
i n x
i+1
, atunci ea poate avea orice
valori ntre aceste puncte. Oricum, dac f(x
i+1
) este mult mai mare (sau mult mai mic) dect
f(x
i
), atunci, datorit mrginirii derivatei funciei de constanta d, funcia ar crete sau descrete
constant pe ntregul interval.
Deci, densitatea exemplelor este invers proporional cu magnitudinea derivatei nti a
funciei int.

130
131

VI. nvarea nesupervizat

VI .1. Generaliti


nvarea reprezint procesul de modificare ale triilor sinaptice a reelei neuronale, ca
rspuns al acesteia la datele de antrenament prezentate la stratul de intrare i uneori la stratul
de ieire - n cadrul nvrii supervizate - cu scopul configurrii reelei neuronale pentru a
executa aciunea dorit [59].
n cadrul nvrii nesupervizate nu exist profesor (antrenor). Reeaua neuronal
trebuie s fie n stare s "descopere" singur modele, trsturi, corelaii sau categorii n
mulimea datelor de intrare i s le codifice sub forma unor date de ieire. Neuronii i
conexiunile reelei neuronale trebuie s reprezinte un anumit grad de auto-organizare(self-
organization).
nvarea nesupervizat poate fi utilizat doar atunci cnd n mulimea datelor de
intrare exist redundan. Fr redundan este imposibil de a descoperi vreun model (patern)
sau trstur n mulimea datelor de intrare. Din acest punct de vedere redundana asigur
cunoaterea [96].
Tipurile de modele detectabile de ctre o reea neuronal cu nvare nesupervizat
depind de arhitectura reelei neuronale. Analiznd posibilitile a ceea ce pot reprezent datele
de ieire ale unei astfel de reele neuronale, avem urmtoarele cazuri [96]:
1. Similaritate. Valoarea de ieire real generat de unicul neuron de ieire al stratului
de ieire al reelei neuronale ne poate furniza informaii relativ la gradul de similaritate
al unei noi date de intrare relativ la un model mediu prezentat reelei neuronale n trecut.
Reeaua neuronal va nva treptat ceea ce reprezint un model mediu.
2. Analiza componentei principale (PCA - Principal Component Analysis) [109].
Extinznd cazul precedent la situaia reelei neuronale cu mai muli neuroni de ieire n
stratul de ieire, ajungem la construcia unei mulimi de axe de-a lungul crora se
msoar gradul de similaritate relativ la date de antrenament prezentate anterior. Este
folosit ca o metod inspirat din statistic, numit Analiza Componentei Principale, n
care se iau n considerare direciile vectorilor proprii ale matricei de corelaie ale datelor
de intrare.
3. Clustering. O reea neuronal cu valori de ieire binare, avnd un unic neuron de
ieire activ (genernd valoare binar 1) iar ceilali neuroni de ieire inactivi (genernd
valorile binare 0), va desemna crei categorii aparine un vector de intrare. Apartenena
la o anumit categorie trebuie efectuat de reeaua neuronal pe baza informaiilor de
corelare a vectorilor de intrare. Vectorii de intrare similari sau asemntori vor constitui
o mulime numit cluster (nor), fiind clasificai n aceeai clas de ieire, mai precis,
acelai neuron din stratul de ieire va fi activat.
4. Prototipuri. n acest caz reeaua neuronal va forma categorii ca i n cazul
clusteringului, dar valoarea de ieire nu va fi o unic valoare binar 1, ci un prototip sau
exemplar reprezentativ al clasei sau categoriei corespunztoare. Reeaua neuronal se
comport n acest caz i ca o memorie asociativ.
5. Codificare. Valoarea de ieire al unei reele neuronale poate s reprezinte versiunea
codificat a datelor de intrare prezentate la stratul de intrare al reelei neuronale,
132
codificare fcut folosind un numr ct mai mic de bii, pstrnd ct mai mult din
relevana informaiei originale. O astfel de codificare este necesar pentru o compresie a
datelor, preliminar transmisiei acestora printr-un canal de transmisie cu band limitat
(presupunnd c la cellalt capt al canalului de transmisie exist o reea neuronal
decodificatoare, cu funcie invers reelei neuronale de codificare).
6. Hri de trsturi (Feature Mapping). Aceast situaie apare n cazul cnd stratul de
ieire al reelei neuronale posed o arhitectur geometric fix (ca de exemplu o matrice
bidimensional) i doar cte un neuron de ieire este activ la un moment dat. n acest
fel, vectorii de intrare prezentai la stratul de intrare al reelei neuronale sunt aplicai la
diferite puncte din schema (harta) reprezentat de stratul de ieire, obinndu-se o hart
topografic a vectorilor de intrare, vectorii de intrare asemntori fiind ntotdeauna
aplicai unor puncte apropiate ale hrii de trsturi reprezentat de stratul de ieire.
Aceste cazuri nu sunt n mod necesar distincte, putnd fi combinate n diferite alte
cazuri. De exemplu, cazul de codificare poate fi executat cu ajutorul cazului analizei
componentei principale, sau a cazului de clustering, aceast metod fiind denumit n acest
context cuantificare vectorial (vector quantization) [155]. De asemenea, analiza
componentei principale poate fi folosit pentru aa numita reducere dimensional
(dimensionality reduction) a datelor de intrare, nainte de a fi aplicat clusteringul sau hrile
de trsturi. Reducerea dimensional este necesar mai ales atunci cnd cutm modele ntr-o
mulime de date necunoscut - un spaiu de date de mare dimensionalitate avnd un numr
mic de exemple.
Trebuie s subliniem c nvarea nesupervizat poate fi util chiar n situaii unde este
posibil i nvarea supervizat, ca de exemplu:
- BackPropagation pentru un PMS este un algoritm de nvare lent, deoarece valorile
triilor sinaptice dintr-un strat depind de triile sinaptice ale celorlalte straturi. Acest lucru
poate fi evitat pn la o anumit limit prin utilizarea unor algoritmi de nvare
nesupervizat sau a unor algoritmi de nvare hibrizi supervizai-nesupervizai.
- Uneori, chiar i dup faza de antrenament al unei reele neuronale cu un algoritm de
nvare supervizat este util a aplica reelei neuronale i o faz de nvare nesupervizat,
astfel ca reeaua neuronal s reueasc o adaptare gradual la datele de intrare.
n general arhitectura reelelor neuronale antrenate nesupervizat, este simpl:
- cele mai multe dintre ele sunt alctuite dint-un singur strat, cu propagarea direct a
informailor de la stratul de intrare ctre stratul de ieire(cu excepia modelului ART-
Adaptive Resonance Theory);
- stratul de ieire al acestor reele neuronale conine un numr mult mai mic de neuroni
dect stratul de intrare, excepie fcnd cazul hrilor de trsturi.
- arhitectura acestor reele neuronale este mult mai apropiat de modelele neurobiologice
naturale dect orice alt arhitectur de reea neuronal.

Vom considera n acest capitol o serie de tehnici de nvare bazate pe o regul Hebb
modificat [69], [94]. De asemenea, vectorii de ieire ce se obin la stratul de ieire i vom
considera cu valori reale continue, fr a li se aplica metoda winner-take-all (neuronul din
stratul de ieire cu cea mai mare valoare de ieire este declarat nvingtor, fiind singurul
neuron considerat activ). Scopul principal l va reprezenta gradul de similaritate al datelor de
intrare sau proiecia acestora de-a lungul componentelor principale.


133
VI .2. nvarea nesupervizat Hebbian simpl

VI.2.1. Modelul liniar simplu


S facem urmtoarele convenii:
- avem o mulime de vectori de intrare x

= = ( ,..., ), , , x x P
n 1
1
6
, obinut cu
ajutorul unei distribuii probabilistice P(x);
- componentele x
i
ale vectorului de intrare x le considerm ca avnd valori continue
reale sau discrete booleene {-1,+1};
- fiecare pas din faza de nvare presupune:

- generarea unui vector de intrare x din distribuia probabilistic P(x),
- aplicarea vectorului de intrare x la stratul de intrare al reelei neuronale;

- dup ce reeaua neuronal a nvat destul, ea va trebui s fie capabil s ne msoare
conformitatea unui vector de intrare oarecare cu distribuiei probabilistic P.

S considerm cel mai simplu caz al unei reele neuronale de tip PS, (Perceptron
Simplu), cu un singur neuron n stratul de ieire, cu funcie de activare liniar, model pe care-l
vom numi pe scurt Model Liniar Simplu MLS.















Fig. 6.1.: Arhitectura unui MLS. Neuronul de ieire are funcia de activare liniar.


Deoarece funcia de activare a neuronului din stratul de ieire este liniar, putem s
scriem:


6
Din considerente de simplificare a scrierii vom renuna la termenul Bias x
0

i atunci cnd nu exist pericol de confuzie i la


indicele superior care reprezint indexul mulimii de antrenament.
y
w
n
w
i

x
1
x
2
x
3
x
i
x
n

w
1
w
2
w
3

134
w x x w = = =

=
T
1
T
j
n
j
j
x w y (6.1)

unde x
T
nseamn transpusa vectorului coloan x, iar produsul "" reprezint produsul
matricial.
Dorina noastr, dup cum am mai amintit, este ca neuronul de ieire s genereze o
valoare de ieire y care s reprezinte o msur scalar a gradului de familiaritate:

cu ct un vector de intrare are o probabilitate mai mare cu att valoarea de
ieire generat y trebuie s fie mai mare.

Acest lucru reprezint chiar strategia de nvare Hebbian, exprimabil matematic
prin relaia:


i i
x y w = A q (6.2)

unde q reprezint rata de nvare.
Mrimea de ieire y capt valori din ce n ce mai mari, pe msur ce prezentm
vectori de intrare stratului de intrare. Vectorii de intrare cu frecvena cea mai mare vor avea
evident cea mai mare influen n procesul de nvare, producnd i cea mai mare valoare de
ieire y. Acest lucru ns prezint i un inconvenient: triile neuronale au valori din ce n ce
mai mari, ceea ce implic faptul c procesul de nvare nu se oprete niciodat.
De aceea vom ncerca o analiz mai detaliat a relaiei (6.2). S presupunem c la un
moment dat exist un punct de echilibru stabil pentru triile sinaptice w. Dup ce procesul de
nvare a evoluat suficient, vectorul w trebuie s se gseasc ntr-o vecintate V a punctului
de echilibru stabil, fluctuaiile n jurul acestui punct fiind proporionale cu rata de nvare q,
n medie, poziia sa ns coincide cu punctul de echilibru stabil. Cu alte cuvinte, dorina
noastr este ca media modificrilor triilor sinaptice s fie zero, adic:

Aw y x w x x w =0
i i j j i
j
n
ij
j
n
j
= = = =
= =

1 1
C C w (6.3)

unde notaia reprezint media n raport cu distribuia probabilistic P(x), iar C matricea de
corelaie, definit astfel:


j i ij
x x C = (6.4)

sau n notaie matricial:

C x x
T
= (6.5)

Obs.6.1: a). Matricea C nu reprezint exact matricea de covarian n sensul teoriei
probabilitilor, unde, matricea de covarian este reprezentat ca fiind
( ) ( ) x x x x
i i j j
.
135
b). Matricea de covarian C este simetric:
ji ij
c c = . De aceea, ea are toate valorile
proprii reale, iar vectorii proprii pot fi considerai ortogonali.
c). Matricea de covarian C este pozitiv semi-definit:

u C u u x x u u x x u x u u
T T T T T T
= = = > ( ) ( )
2
0 (6.6)

deci toi vectorii si proprii sunt mai mari sau egali cu zero.

Revenind la relaia (6.5), punctul ipotetic de echilibru stabil w reprezint un vector
propriu al matricei de covarian C cu valoarea proprie 0. Dar acesta nu poate fi stabil, cci n
mod necesar matricea de covarian C are i valori proprii strict pozitive, de aceea orice
fluctuaie de-a lungul direciei date de un vector propriu cu valoare proprie strict pozitiv va
crete exponenial. Astfel, direcia cu cea mai mare valoare proprie
max
relativ la matricea C,
va deveni dominant, w va tinde gradual ctre vectorul propriu ce corespunde la valoarea
proprie
max
.
Din cele prezentate pn acuma rezult urmtoarea concluzie:

Legea de nvare Hebbian (6.2) are doar puncte fixe w instabile.


VI.2.2. Regula lui Oja

Pentru ca s prevenim fenomenul de divergen ce apare n nvarea Hebbian,
trebuie s limitm creterea valorilor vectorului triilor sinaptice w. n literatura de
specialitate exist mai multe variante [96] ale aceleai idei:
- renormalizarea vectorilor triilor sinaptice dup fiecare pas al procesului de nvare
= w w o ' , alegnd o astfel nct |w'| = 1.
n lucrarea [150], Oja prezint o metod mai eficient, modificnd legea de nvare
Hebbian (6.2), astfel nct vectorii triilor sinaptice s tind ctre o valoare constant |w| =
1, fr a mai fi necesar o renormalizare manual dup fiecare pas al procesului de nvare.
Vectorul triilor sinaptice w va tinde ctre un vector propriu al matricei de covarian C, ce
are valoarea proprie maximal
max
. Acest vector propriu este numit vector propriu maximal.

Regula lui Oja [151], const n a aduna un termen reductiv, proporional cu y
2
, la
legea de nvare Hebbian (6.2):

Aw y x yw
i i i
= q ( ) (6.7)

S observm analogia dintre regula lui Oja i legea de nvare Delta (3.6); deoarece
factorul de modificare al triilor sinaptice Aw depinde de diferena dintre vectorul de intrare x
i

i valoarea de ieire propagat napoi yw
i
, regula de nvare a lui Oja seamn cu o lege de
nvare Delta invers.
S artm c ntr-adevr legea de nvare Oja face ca vectorul triilor sinaptice w s
tind ctre un vector unitar sau ctre un vector propriu maximal. Pentru aceasta s analizm
comportamentul unui proces de nvare nesupervizat bazat pe regula lui Oja.
136
Se prezint la stratul de intrare al reelei neuronale vectori de intrare x, generai de o
distribuie Gaussian bidimensional; am considerat cazul unei reele neuronale cu doi
neuroni n stratul de intrare, deci vectorul de intrare i vectorul triilor sinaptice au cte dou
componente: x = (x
1
, x
2)
i w = (w
1
, w
2
). Iniial, vectorul triilor sinaptice a fost iniializat cu
valori aleatoare mici, actualiznd acest vector pentru fiecare vector de intrare prezentat la
stratul de intrare al reelei neuronale conform cu regula lui Oja (6.7).
n Fig.6.2 liniile subiri arat c vectorul triilor sinaptice |w| crete n primele faze ale
procesului de nvare, ajungnd ca dup ce acest proces evolueaz, s se stabilizeze la o
valoare constant 1, iar n continuare s fluctueze pe un arc de cerc ce corespunde cercului
|w| = 1. n aceeai figur se observ c convergena la cercul unitar (cu centrul n origine i
raza egal cu 1) a fost mult mai rapid n cazul (b) dect n cazul (a).
Vectorii reprezentai cu ajutorul unor sgei reprezint vectorii medii ai triilor
sinaptice. Interpretarea poziiei lor este urmtoarea:
- deoarece suntem n cazul modelului liniar simplu, i neuronul de ieire are ataat
o funcie de transfer liniar, valoarea de ieire y reprezint componenta vectorului
de intrare x de-a lungul direciei vectorului triilor sinaptice w.
- n cazul (a), datele generate de distribuia probabilistic P(x) au o medie
aproximativ nul, valoarea de ieire y va avea de asemenea, n medie, o valoare
aproximativ nul, indiferent de direcia vectorului triilor sinaptice w, avnd totui
o magnitudine mai mare pentru direcia gsit n urma procesului de nvare.
- n cazul (b), valoarea medie a lui y este maximizat relativ la direcia gsit n
urma procesului de nvare.


Fig.6.2.: Exemplu relativ la legea de nvare nesupervizat Oja. Punctele reprezint 1000 de
date de nvare generate de distribuia probabilistic P(x). Sgeile reprezint vectorul
mediu al triilor sinaptice dup un numr mare de actualizri efectuate de procesul de
nvare. Liniile subiri reprezint traiectoriile vectorului triilor sinaptice w n timpul
procesului de nvare: (a) pentru 2500 de pai de nvare; (b) pentru 1000 de pai de
nvare.

n ambele cazuri (a) i (b) direcia gsit de legea de nvare nesupervizat bazat
pe regula lui Oja determin valori de ieire y mai mari dect orice alt direcie, cnd procesul
de nvare se bazeaz pe vectori de intrare generai de distribuia probabilistic original.
Pentru vectori de intrare generai de alt distribuie probabilistic nefamiliar cu procesul

137
de nvare, acetia vor tinde s genereze valori mai mici pentru |y|, chiar dac aceste valori au
n medie o magnitudine mai mare.
Astfel, reeaua neuronal construiete un index de similaritate relativ la distribuia
probabilistic privit ca un ntreg, dar nu i n mod necesar pentru un vector de intrare
particular x.
n concluzie, putem afirma faptul c regula lui Oja alege n urma procesului de
nvare, direcia w de maximizare a valorii y
2
. Pentru date de intrare ca cele din cazul (a)
cu medie nul, aceasta corespunde cazului maximizrii varianei.
S demonstrm c ntr-adevr aplicarea legii de nvare nesupervizate bazate pe
regula lui Oja face ca vectorul triilor sinaptice s convearg la un vector w ce posed
urmtoarele proprieti:
- Vectorul w este unitar avnd | w | = 1 sau w
i
i
n
2
1
1
=
= .
- Direcia vectorului propriu: w este situat ntr-o vecintate a vectorului propriu
maximal a matricei de covarian C.
- Maximizarea covarianei: w are o direcie ce maximizeaz y
2
.
Folosind relaiile (6.1) i (6.5) avem:
y
T 2 2
= = = ( ) w x w xx w w Cw
T T T
(6.8)
Pentru un vector al triilor sinaptice cu |w| fixat i pentru o matrice de covarian
simetric C, rezultate cunoscute [21] afirm c forma cvadratic w Cw
T
este maximizat
cnd vectorul triilor sinaptice w are direcia unui vector propriu maximal a lui C. Astfel,
aceast direcie maximizeaz y
2
, deci Proprietatea 3 este o consecin simpl a Proprietii
2. De aceea, trebuie s demonstrm doar proprietatea 1 i proprietatea 2.
Conform afirmaiilor fcute pentru relaia (6.3), cnd atingem un punct de echilibru,
variaia medie a modificrilor triilor sinaptice trebuie s fie nul, adic:

0
2
1 1 1
1 1 1
= = = =
=

(
= = =
= = =


Aw yx y w w x x w x w x w
C w w C w w
i i i j j i j j k k i
k
n
j
n
j
n
ij
j
n
j j jk k
k
n
j
n
i
(6.9)
sau n scriere matricial:

| |
0 = = Aw Cw w Cw w
T
(6.10)
Dac notm:
= w Cw
T
(6.11)
Atunci ntr-un punct de echilibru vom avea:
0 = = Cw w Cw w sau (6.12)
138
= = = w Cw w w w
T T 2
(6.13)
Ecuaia (6.12) arat c un vector al triilor sinaptice w ce corespunde unui punct de
echilibru, trebuie s fie un vector propriu a matricei de covarian C. De asemenea, relaia
(6.13) exprim faptul c |w| = 1. Singurul lucru ce ne-a mai rmas de demonstrat este c
=
max
.
Orice vector propriu normalizat a matricei de covarian C satisface relaia (6.10), dar
numai vectorul propriu ce corespunde lui
max
este stabil. Pentru a demonstra acest lucru, fie
w vectorul triilor sinaptice situat ntr-o vecintate a unui vector propriu normalizat a matricei
de covarian C, notat c
o
. Atunci putem scrie relaiile:
c
o
+ = c w (6.14)
cu: 1 c = =
o o o o
i c Cc (6.15)
Utiliznd relaia (6.9), variaia medie a lui c va fi:

( )
( )
| |
( )
| |
| | ( )
| |
( )
| |
| |
A A c c c c c
c c c
c c
c c c c
o o o o
o o o o o o o o o
o o
o o o o
= = + + + + =
= +
+ =
= +
w C c c C c c
c C c Cc c Cc c c C c
Cc
C c c
( ) ( ) ( )
( )
( ).
T
T
T
T
T
T
T
c O
O
2
2
2
(6.16)
n continuare, alegem componenta variaiei lui Ac de-a lungul direciei unui alt
vector propriu normalizat al matricei de covarian C, notat c
|
. Pentru aceasta nmulim la
stnga relaia (6.16) cu (c
|
)
T
, ignornd termenii de ordinul O(c
2
):

( ) ( ) | | ( )
| |( )
c c c c
c
| | | o o
o|
o |
| o o
o|
|
c c c o c
o c
T T
T
T
T
A = =
=
2
2 .
(6.17)
unde:

o|
o |
o = c c
T
) ( (6.18)
datorit ortogonalitii vectorilor , iar
o
o |
o |
o|
=
=
=

1
0
,
,
dac
dac
(6.19)
reprezint simbolul delta a lui Kroenecker.

S analizm relaia (6.17): pentru o = | componenta lui c de-a lungul vectorului c
|
va
crete ceea ce va provoca instabilitatea soluiei, dac
o
>
|
. Atunci, dac
o
nu este cea mai
mare valoare proprie
max
va exista ntotdeauna o direcie instabil. Pe de alt parte, un vector
propriu ce corespunde lui
max
este stabil in orice direcie, incluznd chiar i direcia c
o
. Adic
exact ceea ce trebuia s demonstrm.

139
Obs.6.2:. Demonstraia noastr nu a avut reuit s dovedeasc convergena metodei la
o soluie, ci doar c n medie avem un punct fix al regulii lui Oja. Pentru demonstrarea
convergenei trebuie folosite tehnici mai complexe, ca de exemplu teoria aproximrii
stohastice[120], [152].

VI.2.3. Alte reguli de nvare nesupervizat

Regula lui Oja (6.8) nu este singura metod de transformare a regulii de nvare
nesupervizat Hebbian (6.2) astfel nct triile sinaptice s rmn mrginite. Linsker [127],
[128] utilizeaz o tehnic de tiere (clipping): triile sinaptice individuale w
i
sunt constrnse
s satisfac relaia:

w w w
i +
s s (6.20)

Yuille et al. [214] au utilizat regula:


( )
Aw yx w
i i i
= q w
2
(6.21)

care face ca vectorul triilor sinaptice w s convearg ctre acelai vector propriu maximal ca
i cel obinut cu ajutorul regulii lui Oja. Singura diferen const n faptul c nu se mai
impune condiia ca vectorul triilor sinaptice s fie de modul unitar ci w =
max
. Regula
lui Yuille(6.21) are dezavantajul c, fa de regula lui Oja, nu este local - pentru a actualiza
o trie sinaptic w
i
avem nevoie de informaii despre toate celelalte trii sinaptice w
j
,j=i.
Avem ns avantajul existenei unei funcii cost asociate reelei neuronale, de forma:

E C w w w
ij i j
j
n
i
n
i
i
n
= +
|
\

|
.
|
=
= = =

1
2
1
4
1
2
1
4
1 1
2
1
2
2
w Cw w
T
(6.22)

Efectul medierii Aw
i
n relaia (6.21) este din punct de vedere matematic echivalent
cu aplicarea unei metode gradient descendente relativ la suprafaa generat de funcia cost
(6.22).


VI .3. Analiza componentei principale


O metod de analiz a datelor, inspirat din statistic [12], este metoda cunoscut sub
denumirea analiza componentei principale(PCA - Principal Component Analysis). Metoda
este ntlnit i n teoria comunicailor sub denumirea de transformata Karhunen-Loeve,
fiind asemntoare cu metoda celor mai mici ptrate. Dup Linsker [128], PCA este
echivalent cu maximizarea coninutului informaional al semnalului de ieire n situaii unde
acest semnal respect o distribuie probabilistic Gaussian.
Scopul metodei PCA este de a determina o mulime de m vectori ortogonali n spaiul
datelor de intrare, astfel nct aceti vectori s conin ct mai mult din variana acestor date.
Proiectnd datele din spaiul original n-dimensional n spaiul m-dimensional generat de
140
vectorii determinai, se realizeaz o operaie de reducere dimensional, operaie care trebuie
ns s rein cea mai mare parte a informaiei intrinseci a datelor de intrare. De obicei m <<
n, ceea ce implic faptul c datele de intrare, dup ce au fost supuse operaiei de reducie
dimensional, sunt mult mai simplu de manipulat. Ca un exemplu, poate fi prezentat cutarea
unor clustere de date. n Fig.6.3. este prezentat un exemplu preluat din Linsker [128], unde se
poate observa c de obicei clusterele de date sunt mult mai uor de pus n eviden prin
proiecia pe o direcie de varian mai mare dect pe o direcie de varian mai mic.
PCA determin c prima component principal s fie situat de-a lungul direciei cu
varian maxim. A dou component principal este constrns s fie situat n subspaiul
perpendicular pe primul spaiu. n cadrul acestui subspaiu a doua component principal este
considerat de-a lungul direciei cu varian maxim. Procesul continu n acelai fel: a treia
component principal este considerat de-a lungul direciei de varian maxim din
subspaiul perpendicular pe primele dou spaii.

Fig.6.3. Ilustrarea modului de lucru al PCA. OA reprezint direcia primei componente
principale a distribuiei generate de norul datelor de intrare. Proiecia pe direcia OA
conine mai mult informaie despre structura datelor de intrare dect proiecia pe alt
direcie OB (Dup Linsker [128]).

n general se poate dovedi faptul ca cea de-a k direcie a componentei principale este
de-a lungul direciei unui vector propriu ce corespunde celei de-a k valori proprii maximale a
matricei de covarian total ( )( )
j j i i
x x , unde
i i
x = .

Obs.6.3.: Pentru date de intrare cu media nul, 0 =
i
suntem n cazul matricei de covarian
C, definit n (6.5). n cele ce urmeaz vom considera c ne aflm n aceast situaie, i prin
matrice de covarian vom nelege matricea C definit n (6.5).

Pn acuma am vzut c prima component principal - ce corespunde direciei
varianei maxime nerestricionate - corespunde unui vector propriu maximal a lui C. S
dovedim n continuare afirmaia fcut mai sus, relativ la cea de-a k component principal:
pentru aceasta vom scrie variana de-a lungul unei direcii date de un vector unitar u:

( ) Cu u u xx u u x
T T T
2
T 2
= = =
u
o (6.24)

Aplicnd metoda diagonalizrii formei ptratice Cu u
T
, obinem:


2 2
o
o
o
o u
u
= (6.25)


141
unde u
o
este componenta vectorului u de-a lungul vectorului propriu c
o
ce corespunde valorii
proprii
o
a matricei de covarian C.
S considerm n continuare c valorile proprii sunt n ordine descresctoare:


n
> > > ...
2 1
(6.26)

cu
1
=
max
.
Procedm n continuare la aplicarea procedeului induciei matematice, presupunnd c
principalele componente de la 1 la k - 1 sunt de-a lungul direciilor date de primii k - 1 vectori
proprii. Ce-a de-a k component principal este constrns s fie perpendicular pe aceste
direcii, astfel c avem:

0 ...
1 2 1
=
k
u u u (6.27)

Maximiznd o
u
2
relativ la condiia (6.27) de mai sus, innd cont c u este un vector
unitar, deci |u| = 1 sau 1
2
=

o
o
u , obinem [96]:

u
dac j k
altfel
j
=
=

1
0
,
,
(6.28)

ceea ce dovedete c cea de-a k component principal este de-a lungul celui de-al k vector
propriu.
Mai mult chiar, relaia (6.25) dovedete c variana o
u
2
este egal cu
k
cnd vectorul
unitar u este de-a lungul direciei celei de-a k componente principale.


VI.3.1. PCA - Analiza Componentei Principale aplicat la PS


Aplicarea regulii lui Oja (6.7) va conduce la determinarea unui vector al triilor
sinaptice w care maximizeaz ptratul mediu al valorilor de ieire
2
Y . Pentru cazul luat n
discuie, cu date de intrare avnd o medie nul (Obs.6.3), vectorul triilor sinaptice reprezint
prima component principal.
Ar fi de dorit s avem o reea neuronal cu m neuroni de ieire care s realizeze
extragerea primelor m componente principale. Acest lucru a fost realizat de Sanger [176] i
Oja [150] care au construit o reea neuronal cu arhitectur PS (Perceptron Simplu).
Vom lua n considerare cazul PS cu funcie de activare liniar [68], cazul PS cu
funcie de activare neliniar fiind tratat n [151].
A i-a valoare de ieire generat de al i-lea neuron de ieire al PS va fi:

m i x w Y
n
j
j ij i
,..., 2 , 1 ,
1
= = = =

=
i
T T
i
w x x w (6.29)

142
unde w
i
reprezint vectorul triilor sinaptice corespunztor celui de-al i-lea neuron de ieire,
iar x reprezint vectorul de intrare. Ambii vectori sunt n-dimensionali.

Regula de nvare a lui Sanger [176] este:

|
.
|

\
|
= A

=
i
k
kj k j i ij
w Y x Y w
1
q (6.30)

Regula de nvare a lui Oja (cu m neuroni) [151], este de fapt regula Oja (6.7)
aplicat unui model de reea neuronal cu m neuroni n stratul de ieire:

|
.
|

\
|
= A

=
n
k
kj k j i ij
w Y x Y w
1
q (6.31)

Diferena dintre cele dou legi de nvare este dat doar de limit superioar a
sumrii: i - pentru regula Sanger, respectiv n - pentru regula Oja. Evident, cele dou reguli
coincid pentru modelul de reea neuronal liniar simplu (Fig.6.1), unde m = 1 i pentru primul
neuron de ieire i = 1, deci vom ti ntotdeauna c primul neuron al stratului de ieire va
detecta prima component principal a datelor de intrare
8
.
Pentru ambele reguli de nvare vectorii triilor sinaptice w
i
converg ctre vectori
ortogonali unitari:


ij
o =
j
T
i
w w (6.32)

Pentru regula lui Sanger vectorii triilor sinaptice devin exact primele m direcii ale
componentelor principale, adic:


i
i
c w = (6.33)

unde c
i
reprezint vectorul propriu normalizat al matricei de corelaie C, vector ce corespunde
celei de-a i-a valoare proprie maximal
i
, valorile proprii fiind considerate n ordine
descresctoare, ca n (6.26).
S schim demonstraia relaiei (6.33). Pentru aceasta s substituim relaia (6.29) n
relaia (6.30) i s considerm media:


Aw
w x x w x w x w
w C w C w w
ij
ip p j ip p kq q kj
q k
i
p p
ip
p
pj kq pq ip
pq
kj
k
i
q
= =
=

(


=
=
1
1
(6.34)



8
Dup cum am mai amintit, n general preferm s studiem date cu media nul. Reamintim faptul c reeaua
neuronal "descoper" vectorii proprii ai matricii de covarian C (1.5), n timp ce componentele principale
sunt vectori proprii ai matricii de covarian total
|
|
.
|

\
|
|
.
|

\
|

j

j
x
i

i
x , unde
i i
x = . Pentru date de intrare
cu media nul nu exist nici o diferen.

143

sau n scriere matricial, separnd termenul k = i, avem:


i i
T
i
i
k
k i
T
k
i
i
w Cw w w Cw w Cw
w
(

=
=
A 1
1
q
(6.35)

S aplicm principiul induciei matematice: presupunem adevrat faptul c vectorii
triilor sinaptice converg ctre vectorii proprii corespunztori pentru k = 1, 2, ..., i - 1, adic
i k pentru
k
k
< = , c w . innd cont de expresia:

y x y x
|
|
.
|

\
|

T
(6.36)

care reprezint proiecia unui vector x perpendicular pe un vector unitar y, avem n relaia
(6.35):

( )
i i
T
i
i
i
w Cw w Cw
w
(

=
A
q
(6.37)

unde notaia ( )

i
Cw reprezint proiecia lui
i
Cw pe subspaiul ortogonal pe primii i - 1 vectori
proprii. Deoarece C conserv acest subspaiu, avem relaia:

( )

=

i
i
Cw Cw (6.38)

S presupunem c vectorul triilor sinaptice w
i
are o component ce nu aparine
acestui subspaiu. Pentru aceast component, primul termen din membrul drept al relaiei
(6.37) nu produce nimic, iar pentru al doilea termen aceasta va cauza o descretere ctre zero.
Astfel, vectorul w
i
se relaxeaz n acest subspaiu. Dar, cnd restricionm la ntregul
subspaiu, ntreaga relaie (6.37) devine regula lui Oja pentru modelul simplu liniar (6.7)
relativ la al i-lea neuron din stratul de ieire, i astfel, converge la vectorul propriu maximal
din subspaiu, care este c
i
cu valoarea proprie .
Pentru fiecare lege de nvare, Sanger sau Oja (cu m neuroni), avem un mecanism
similar; neuronii din stratul de ieire proiecteaz un vector de intrare x n spaiul generat de
primele m componente principale.
S analizm fiecare din cele dou legi de nvare nesupervizate n parte:

a). Regula lui Sanger:
- regula lui Sanger este mai util n aplicaii practice deoarece extrage componentele
principale individual i n ordine, genernd un rezultat reproductibil
9
relativ la o
mulime de date de intrare, cu condiia ca valorile proprii s nu fie degenerate;
- valori de ieire diferite sunt statistic necorelate variana lor descrescnd constant o
dat cu creterea lui i. Astfel, n aplicaii practice referitoare la compresii de date i
codificare de date vor fi necesari tot mai puini bii de informaie pentru valori de
ieire ulterioare;

9
Reproductibilitatea este n valoare absolut, deoarece, datorit semnului , pot aprea diferene de semn.
144
- poate fi util o analiz a varianei valorilor de ieire, care de fapt reprezint
valoarea proprie corespunztoare, ca o msur a utilitii acelor valori de ieire;
putem considera un prag al varianei pn la care s considerm o valoare de
ieire ca fiind util.

b). Regula lui Oja (cu m neuroni):
- regula lui Oja (cu m neuroni) genereaz vectori ai triilor sinaptice ce pot s
difere de la un set de date de antrenament la altul, depinznd de condiiile iniiale i de
datele de antrenament prezentate reelei neuronale;
- n medie, variana valorilor de ieire generate de neuronii de ieire este aceeai; acest
fapt poate fi folosit n unele aplicaii relativ la reele neuronale cu mai multe straturi,
ca de exemplu PMS [68], unde se dorete o mprtiere uniform a informaiei ntre
neuroni.

Nici una din cele dou reguli de nvare nu are ns caracter local. De aceea, operaia
de actualizare a triilor sinaptice w
ij
necesit mai mult informaie dect este disponibil la
neuronul al i-lea din stratul de intrare i la neuronul al j-lea din stratul de ieire. De aceea,
Sanger [176] sugereaz o reformulare a legii sale de nvare (6.30), n aa fel nct s
captureze i caracterul de localitate:



(
(
(

|
|
|
.
|

\
|

=
= A
ij
w
i
Y
i
k
kj
w
k
Y
j
x
i
Y
ij
w
1
1
q (6.39)


VI .4. Hri de trsturi (feature detection)


Metodele de nvare Hebbiene au fost aplicate n diferite variante pentru a nva
reele neuronale numite detectoare de trsturi sau hri de trsturi (feature detection), ca o
analogie cu retina ochiului, stratul de intrare fiind o matrice bi-dimensional de pixeli, numit
"retin".
De obicei, mulimea datelor de intrare este bine definit i restrns la o anumit clas
de simboluri - ca de exemplu modele de litere, modele de cifre, modele de code-baruri etc. -
rolul neuronilor din stratul de ieire fiind acela de a deveni mai sensibili la unul din modelele
prezentate la stratul de intrare. Analogia cu retina ochiului uman este evident; anumite
grupuri de celule specializate rspund difereniat la diferiii stimuli optici. Demn de remarcat
este faptul c o astfel de reea neuronal nu are rolul de a reduce dimensionalitatea datelor de
intrare, ci de a transforma informaia prezentat la stratul de intrare al reelei neuronale.
Conform cu [19] putem defini mrimea numit selectivitate a unei valori de ieire Y
i
,
generat de al i-lea neuron de ieire astfel:

S
Y
Y
i
i
i
= 1
max
(6.40)

145
unde prin Y
i
nelegem media valorilor de ieire ale neuronului al i-lea de ieire relativ la
mulimea tuturor datelor de intrare posibile.
Selectivitatea S
i
tinde la 1 dac al i-lea neuron de ieire genereaz valori mari doar
pentru o anumit dat de intrare (cnd datele de intrare sunt discrete) sau pentru o mulime
restrns de date de intrare (cnd avem mulimea datelor de intrare continu).
Selectivitatea S
i
tinde la 0 dac al i-lea neuron de ieire genereaz valori egale sau
aproximativ egale pentru toate datele de intrare.
Problema care se pune este cum s construim arhitectura unei reele neuronale i cum
s nvm reeaua neuronal n aa fel nct la nceputul procesului de nvare valorile de
ieire Y
i
s aib o selectivitate sczut, apropiat de zero, iar pe parcursul procesului de
nvare selectivitatea s tind ctre 1. Mai mult chiar, am dori ca diferii neuroni din stratul
de ieire s devin foarte senzitivi la anumite date de intrare. Dac aranjm neuronii din
stratul de ieire al reelei neuronale ntr-o configuraie geometric, ca de exemplu o matrice
bidimensional, dorina noastr este ca date de intrare similare s genereze rspunsuri la
stratul de ieire n regiuni identice sau foarte apropiate. n acest fel se obin i schemele de
trsturi (feature mapping) asupra crora vom reveni n capitolul urmtor.
Analogia cu reelele neuronale biologice este evident. Cercetri efectuate [105] au
pus n eviden existena unor neuroni n cortexul vizual (de exemplu n regiunea 17 sau V1)
care rspund preferenial la stimuli vizuali sub form de bar sau de vrfuri.
Linsker [127], [128], a dezvoltat un exemplu de reea neuronal pentru detectarea
trsturilor, bazat pe un algoritm de nvare competitiv (competitive learning). Exemplul
su este motivat de proprietile celulelor sistemelor vizuale ale mamiferelor, din primele faze
de dezvoltare. Deoarece, aceste proprieti se dezvolt la unele mamifere nainte de natere,
ele nu sunt rezultatul vreunei experiene de structurare [112].
Mecanismul vizual conine un exemplu corespunztor de detecie de trsturi.
Aspectele simple legate de form, ca de exemplu contrastul i orientarea, sunt analizate de
primele straturi neuronale; aceste trsturi sunt combinate pentru a forma trsturi mai
complexe n straturile neuronale mai profunde. n orice strat retinal sau cortical vom gsi
grupuri de celule avnd funcii similare. Fiecare celul prelucreaz semnale provenite din
cmpul receptiv, care este o regiune limitat a spaiului vizual. Chiar dac funcia de activare
a unei celule biologice este n general neliniar [68], aproximarea prin intermediul unei sume
liniare este satisfctoare, formarea trsturilor aprnd i n acest caz.
Reeaua neuronal a lui Linsker are urmtoarea arhitectur:
- neuronii reelei neuronale au funcii de activare liniar;
- neuronii sunt organizai pe straturi bidimensionale, indexate astfel: A (stratul de
intrare), B, C, etc.;
- ntre straturi exist conexiuni de propagare direct (feed-forward);
- fiecare neuron dintr-un strat (cu excepia stratului de intrare) are conexiuni doar cu un
grup de neuroni situai ntr-o aceeai vecintate din stratul precedent, vecintate
numit cmp receptiv.
Aceste cmpuri receptive care limiteaz un grup de neuroni dintr-un strat reprezint
elementul esenial al reelei neuronale tip Linsker; aceasta permite ca neuronii dintr-un strat
s "rspund" la corelaii geometrice spaiale ale datelor din stratul anterior.


146




Fig.6.4. Arhitectura reelei neuronale
multistrat a lui Linsker ce are la baz un
algoritm de nvare Hebbian. n figur se
pot observa cmpurile receptive ale unor
neuroni situai n straturile succesive ale
reelei neuronale.








S presupunem c avem un neuron care primete valori (stimuli) de intrare de la un
cmp receptiv constituit din K neuroni, numerotai 1,2,...,K situat n stratul precedent.
Atunci acest neuron va genera urmtoarea valoare de ieire:
Y a w V
jj j
j
K
= +
=

1
(6.41)
unde:
- V
j
reprezint fie datele de intrare x
j
, dac neuronul este situat n stratul B, fie
valorile de ieire generate de neuronii din cmpul receptiv al neuronului, dac
acesta este situat intr-unul din straturile C, D, ....
- termenul a este termenul Bias i poate fi omis din reprezentare [68].
Legea de nvare utilizat de Linsker este de tip Hebbian i poate fi exprimat prin
formula:
( ) Aw VY bV cY d
i i i
= + + + q (6.42)
unde parametrii b, c, d pot fi alei n aa fel nct s produc diferite tipuri de comportament
ale reelei neuronale.
Pentru a preveni creterea indefinit a triilor sinaptice putem impune tehnica de
mrginire, prin care:
w w w
i +
s s (6.43)
Pentru a fi mai apropiai de realismul biologic, putem utiliza n locul metodei (6.43) de
mrginire explicit, o combinaie de trii sinaptice inhibitorii:

147
w w
i
s s 0 (6.44)
sau trii sinaptice excitatorii:
0s s
+
w w
i
(6.45)
Calculm n continuare media Aw
i
de modificare a triilor sinaptice. Pentru aceasta,
presupunem c toate valorile de intrare V
i
au aceeai medie V , ceea ce ne permitem s scriem:
V V v
i i
= + (6.46)
Atunci din relaia (6.42) obinem:

(
(

|
|
.
|

\
|
+ =
=
(
(

+ + + +
(

+ + + = A
j
j
w
j
w
j
ij
j
d V
j
w a c V b
j
j
v V
j
w a
i
v V
i
w
q
q
C
) ( ) ( ) (
(6.47)

unde:
- i reprezint constante obinute ca i combinaii liniare ale constantelor a, b i
V ;
- C
ij
reprezint matricea de covarian v v
i j
KxK dimensional a valorilor de
intrare n neuronul considerat.
Relaia (6.47) poate fi obinut i prin alt analiz. S considerm funcia energetic
(cost):

2
2
+
2
1
|
|
|
.
|

\
|

=
j
j
w
T
E

Cw w (6.48)
Primul termen, Cw w
T
reprezint variana valorii de ieire Y, ca o extensie la ntreaga
matrice de covarian, ca n relaia (6.8). Cel de-al doilea termen reprezint un multiplicator
Lagrange care are rolul de a impune restricia:
w
j
j
= (6.49)
Aplicnd tehnica gradientului descendent mediu, relativ la funciei energie (6.48),
dup cum am vzut n [55]:
Aw
E
w
i
i
= q
c
c
(6.50)
obinem exact legea de nvare a lui Linsker (6.47).
148
Deci, legea de nvare Linsker ncearc s maximizeze variana valorii de ieire n
raport cu restricia (6.49) i cu condiia de mrginire (6.43). Se poate remarca similaritatea cu
regula lui Oja (6.7), care de asemenea maximizeaz variana valorii de ieire n raport cu
restricia w
j
j
2
1 = , dar fr a mai avea i o condiie de mrginire.
Starea de echilibru a legii de nvare a lui Linsker ar nsemna ca membrul drept al
relaiei (6.47) s fie nul, ceea ce ar presupune ca vectorul (1, 1, ..., 1) s fie un vector propriu
al matricei de covarian C. n realitate, conform cu [96], triile sinaptice vor tinde la limita
intervalului de mrginire, ctre w
-
dac 0 s Aw i ctre w
+
dac 0 s Aw . Dac ar exista
mai mult dect o trie sinaptic care s nu aib o valoare egal cu una din valorile extreme w
-
sau w
+
atunci legea de nvare Linsker (6.47) ar deveni instabil.
Pentru a dovedi acest lucru, s presupunem prin absurd contrariul i s notm cu
w
*
=w +c o perturbaie fa de presupusul punct de echilibru. n particular, vom alege c
astfel nct 0 , 0 = =
j
j
j
c c unde dac w
j
este la limita intervalului de mrginire.
Atunci, aplicnd legea de nvare a lui Linsker (6.47), obinem:
C q = A (6.51)
Deoarece matricea C este pozitiv definit (6.6), din relaia de mai sus rezult c
mrimea |c| crete nedefinit, astfel nct punctul ales nu poate fi un punct de echilibru ceea ce
este o contradicie, deci afirmaia fcut nu este adevrat.
Aplicarea n practic a metodei lui Linsker se face astfel [128]:
- se realizeaz procesul de nvare relativ la triile sinaptice dintre stratul de intrare
A i stratul urmtor B, dup care se realizeaz procesul de nvare relativ la triile
sinaptice dintre stratul B i C, dup aceea dintre stratul C i D, etc.;
- se simuleaz existena doar a unui strat la un moment dat, utiliznd ca valori de
intrare matricea de covarian calculat pe baza valorilor de ieire ale stratului
precedent;
- pentru a modifica triile sinaptice pe baza legii de nvare utilizm regula medie
(6.47) i nu regula propriu-zis (6.42). n acest fel avem nevoie doar de matricea
de covarian pentru a simula modul de operare al unui neuron.
Ca un exemplu, prezentm rezultatele unei simulri efectuate de Linsker n lucrarea
[127]. La stratul de intrare A s-au prezentat date numerice aleatoare, n aa fel nct matricea
de covarian s fie proporional cu matricea unitate. Aplicnd faza de nvare, triile
sinaptice dintre stratul de intrare A i B, care sunt funcie de parametrii i , s-au obinut
valori egale cu limita superioar a intervalului de mrginire w
+
. Neuronii din stratul B au avut
de efectuat doar o mediere a valorilor de ieire din stratul de intrare A, ceea ce a provocat
puternica lor corelare deoarece cmpurile lor receptive s-au suprapus unul peste altul; o
activitate puternic a unui neuron din stratul B va fi ntlnit i la neuronii vecini.
149
Fig. 6.5. Schema ce reprezint triile sinaptice pozitive (excitatorii) i negative (inhibitorii) din
cmpurile receptive ale neuronilor reelei lui Linsker. (a) O celul de expansiune situat
n stratul C. (b) O celul de orientare selectiv din stratul G (dup Linsker [127]).
Ca un rezultat al acestei corelaii ntre neuronii vecini din stratul B, neuronii din stratul
C se dezvolt sub forma unor celule de expansiune (center-sorround cells), dup cum se
poate vedea n Fig. 6.5 (a), unde s-au reprezentat cu + i - triile sinaptice ce corespund
valorilor extremale ale intervalului de mrginire w
+
i w
-
. Aceste celule de expansiune vor
avea un rspuns maximal, dac n centrul lor receptiv avem stimuli de forma: o pat alb
nconjurat de un fundal negru sau o pat neagr nconjurat de un fundal alb.






Fig. 6.6. Funcia ce reprezint covariana triilor sinaptice. Funcia este denumit "plria
mexican".

Neuronii din stratul C au ca i funcie de corelaie funcia numit "plria mexican"
(mexican hat) - vezi Fig. 6.6; neuronii vecini sunt pozitiv corelai, n timp ce neuronii mai
ndeprtai sunt negativ corelai. Aceast corelaie este un rezultat al procesului de nvare i
nu a fost impus a priori.
n urmtoarele straturi D, E, F corelaiile au generat celule de expansiune cu "calote"
tot mai nguste pentru "plria mexican". Tendina negativ a corelaiilor devine tot mai
accentuat.
n stratul G, Linsker a modificat parametri, mrind raza cmpurilor receptive, ceea ce
a provocat ca harta triilor sinaptice s nu mai fie circular simetric, ca n Fig.6.5. (a).
Neuronii acestui strat prezint conexiuni alternante negative i pozitive ca n Fig. 6.5 (b).
Aceti neuroni sunt numii celule de orientare-selectiv (orientation selective cells) i au un
rspuns maximal la o bar luminoas de o orientare particular ntr-un fundal ntunecos.


150
Echivalena biologic este pus n eviden la sistemul vizual al mamiferelor: celule de
expansiune au fost descoperite n retin, iar celule de orientare selectiv n cortex [169].




VI .5. nvarea nesupervizat competitiv
VI.5.1. Generaliti


n Cap.VI.1 am studiat tehnici de nvare nesupervizate, bazate pe legea de nvare
Hebbian, n care toi sau majoritatea neuronilor din stratul de ieire genereaz valori de
ieire. Tehnicile de nvare nesupervizate competitive se bazeaz pe faptul c doar un neuron
sau doar un neuron dintr-un grup de neuroni al stratului de ieire devine (devin) activ,
genernd o valoare de ieire. Neuronii din stratul de ieire sunt n competiie ("lupt") pentru
a deveni neuronul "nvingtor", deci pentru a genera o valoare de ieire. Datorit acestei
strategii, straturile care prezint un astfel de comportament competiional, se mai numesc i
straturi "ctigtorul-ia-totul" ("winner-take-all").
Existena reelelor neuronale ce au la baz o strategie de nvare nesupervizat
competitiv este justificat de dorina rezolvrii problemelor legate de categorizarea sau
organizarea n clustere a datelor de intrare. Datele de intrare similare vor trebui s fie
clasificate n aceeai categorie sau cluster i vor trebui s provoace activarea acelorai
(aceluiai) neuroni (neuron) din stratul de ieire. Clasele, sau clusterii, ce corespund
organizrii datelor de intrare, trebuie s fie "descoperite" de ctre reeaua neuronal n cadrul
procesului de nvare pe baza corelaiilor ce exist ntre datele de intrare.
Vom vedea n acest capitol c o aplicaie imediat a acestor tehnici de nvare
nesupervizat competitiv este codificarea i comprimarea datelor (fr a fi singurele
aplicaii) pe baza cuantificrii vectoriale (vector quantization), unde un vector de intrare este
nlocuit cu un index numeric ce reprezint numrul - al ctelea neuron de ieire a devenit
"nvingtor" n stratul de ieire, ca urmarea a competiiei provocate de propagarea vectorului
de intrare n reeaua neuronal, de la stratul de intrare ctre stratul de ieire. Alte aplicaii pot
fi ntlnite n [117].
nainte de a analiza trsturile reelelor neuronale organizate pe baza tehnicii de
nvare nesupervizat competitiv, este util s prezentm i o serie de dezavantaje generale
ale lor [96]:
- pentru fiecare categorie sau cluster trebuie s existe cte un neuron de ieire (i
bineneles i conexiunile necesare). Cu n neuroni de ieire putem reprezenta doar
n categorii sau clustere, fat de 2
n
categorii sau clustere reprezentabile cu un cod
binar;
- aceste reele neuronale nu mai pstreaz trstura de toleran la deteriorri [68].
Dac se deterioreaz un neuron din stratul de ieire se pierde o ntreag categorie
sau un ntreg cluster;
- aceste reele neuronale nu sunt capabile de a reprezenta cunotine ierarhice. Doi
vectori de intrare aparin sau nu unei aceeai categorii sau unui aceluiai cluster.
De aceea, n cadrul unei categorii sau unui cluster nu pot exista subcategorii sau
sub-clustere. Adugarea unor noi straturi ascunse nu rezolv problema, cci este
clar c strategia "ctigtorul-ia-totul" nu permite nici un fel de ierarhizare.
151

VI.5.2. nvarea competitiv


S studiem pentru nceput un model simplu de reea neuronal, de tip PS (Perceptron
Simplu) [55], constituit dintr-un strat de intrare, un strat de ieire i fr straturi ascunse. n
Fig. 6.7. avem reprezentat arhitectura unei astfel de reele neuronale. Se observ c avem
de-a face de data aceasta, cu dou tipuri de conexiuni:
- conexiuni excitatorii: ntre neuronii din stratul de intrare i neuronii din stratul de
ieire w
ij
> 0 (sunt necesare la acest model i auto-conexiuni excitatorii de la un
neuron din stratul de ieire la el nsui);
- conexiuni inhibitorii: de la un neuron din stratul de ieire la alt neuron din stratul
de ieire; rolul acestor conexiuni este de a permite neuronilor din stratul de ieire
s se inhibe reciproc - mecanism numit inhibiie lateral;




















Fig.6.7. Arhitectura unei reele neuronale simple ce implementeaz mecanisme de nvare
competitiv. Conexiunile excitatorii sunt simbolizate cu linii continue, iar cele inhibitorii cu
linii ntrerupte.


Vom considera n cele ce urmeaz ca valori posibile pentru neuronii din stratul de
intrare i ieire, valorile binare {0,1}. De asemenea, n urma "competiiei" vom considera un
singur neuron de ieire ca fiind "nvingtor", deci singurul care va genera valoarea de ieire 1.
Neuronul "nvingtor" relativ la un vector de intrare ( )
n
x x x ,..., ,
2 1
= x va fi acel neuron care
va avea valoare cea mai mare [55]:

x w = =

=
i
n
j
j ij i
x w I
1


adic:

i ) (
i
i
*
> x w x w (6.52)

y
i

x
1
x
2
x
j
x
n-1
x
n

y
1
y
m

Stratul de
intrare
Stratul de
ieire
152
Relaia de mai sus definete neuronul de ieire "nvingtor" i
*
, pentru care:

1
*
=
i
y (6.53)

Dac triile sinaptice dintre stratul de intrare i stratul de ieire sunt normalizate,
relativ la fiecare neuron din stratul de ieire, adic:

|w
i
| = 1 () i (6.54)

atunci relaia (6.52) este echivalent cu relaia:

( ) i s x w x w
i
i
*
(6.55)

Interpretarea relaiei: neuronul "nvingtor" este neuronul din stratul de ieire care are
vectorul normalizat al triilor sinaptice w
i
cel mai apropiate de vectorul de intrare x.
Problema pe care dorim s o studiem n continuare este cum s "alegem" triile
sinaptice w
i
pe baza unei legi de nvare, n aa fel nct reeaua neuronal s fie capabil de
a "descoperii" clusterii din datele de intrare. Pentru aceasta, faza de nvare trebuie s
cuprind etapele:

- atribuirea de valori aleatoare mici triilor sinaptice w
i
;

- alegerea unui vector de intrare x

din cadrul mulimii de antrenament (eventual vectorul


de intrare poate fi generat independent de ctre o distribuie aleatoare P(x));

- prezentarea vectorului de intrare la stratul de intrare i propagarea sa ctre stratul de
ieire;

- determinarea neuronului "nvingtor" i
*
din stratul de ieire, pe baza relaiei (6.55);

- actualizarea triilor sinaptice w
i*j
doar pentru neuronul nvingtor i
*
, cu scopul de a
apropia ct mai mult vectorul triilor sinaptice w
i*
de vectorul de intrare x

curent
(vezi interpretarea de mai sus a relaiei (6.55)). Relaia de actualizare cea mai natural
este:

q
j
j i
x w = A
*
(6.56)

- relaia (6.56) prezint dezavantajul creterii nemrginite a triilor sinaptice ale neuronului
nvingtor i
*
,care devin dominante n procesul de competiie. Pentru a preveni acest
fenomen, corectm relaia (6.56) cu ajutorul unei faze de normalizare:

( ) j w w
j i j i
=
* *
'
o (6.57)

- alegerea lui o fiind fcut astfel nct:

1
1
'
*
=

=
n
j
j i
w (6.58)
153
sau ( ) 1
1
2
'
*
=

=
n
j
j i
w (6.59)

- combinnd relaiile (6.56) i (6.58) obinem legea de nvare:


|
|
|
|
|
.
|

\
|
= A

=
j i n
j
j
j
j i
w
x
x
w
* *
1

q (6.60)

- alt posibilitate de alegere pentru legea de nvare, conform cu [96], este legea de
nvare competitiv standard:


( )
Aw x w
i j
j
i j
* *
= q

(6.61)

Legea de nvare competitiv standard provoac deplasarea vectorului triilor
sinaptice w
i*
direct ctre vectorul de intrare x

. Legea de nvare competitiv standard este


echivalent cu legea de nvare (6.10) dac datele de intrare sunt normalizate. n [87],
Grossberg construiete o reea neuronal care conine un strat de intrare suplimentar de
neuroni, care realizeaz operaia de normalizare.

S mai subliniem nc o dat faptul c legea de nvare acioneaz doar asupra triilor
sinaptice ale neuronului "nvingtor" i
*

pentru care y
i
*
= 1. Pentru restul neuronilor din stratul
de ieire, care nu au fost "nvingtori", avem

( )
*
0 i j y
i
= = (6.62)

Putem atunci s definim o lege de nvare general pentru toi neuronii reelei
neuronale (de fapt doar pentru neuronii situai n stratul de ieire):

( ) Aw y x w i m j n
ij i j ij
= = = q

, , , , 1 1 (6.63)

Dac inem cont de cele prezentate la nceputul acestui Capitol, observm analogia
legii de nvare de mai sus (6.63) cu o lege de nvare tip Hebb, mai precis cu legea de
nvare Sanger (6.30), respectiv legea de nvare Oja (6.7).
Pentru a nelege mai bine modul de operare al legilor de nvare nesupervizate
competitive vom folosi un model geometric (inspirat din [96]). Vom considera cazul cnd
dimensiunea spaiului datelor de intrare este 3. Astfel un vector de intrare este un vector
tridimensional de forma ( )

3 2 1
, , x x x = x . Pentru cazul vectorilor de intrare binari, acetia
ocup vrfurile unui cub unitar n spaiul tridimensional. Deoarece fenomenul de clustering
este greu de studiat n cazul discret al vectorilor de intrare binari, vom extinde studiul la
vectori de intrare cu valori reale aparinnd intervalului [0,1].
154
Vom reprezenta dispunerea geometric a punctelor de intrare pe o sfer unitar sub
forma unor puncte, dup cum se vede n Fig. 6.8. de mai jos.


Fig. 6.8. Reprezentarea geometric a nvrii nesupervizate competitive. Punctele reprezint
vectorii de intrare iar cruciuliele cei trei vectori ai triilor sinaptice care conecteaz
neuronii din stratul de intrare cu cei trei neuroni ai stratului de ieire. (a) Configuraia
vectorilor nainte de nvare. (b) Configuraia vectorilor dup nvare.

De asemenea, vectorii triilor sinaptice, care corespund conexiunilor dintre neuronii
din stratul de intrare i neuronul al i-lea din stratul de ieire, pot fi reprezentai sub forma unui
vector tridimensional ( )
3 2 1
, ,
i i i i
w w w = w pe sfera unitate (sub forma unor cruciulie n Fig.
6.8). Reprezentarea pe sfera unitate este justificat de normalizarea (6.54) (adic |w
i
| = 1,
() i).
Analiznd Fig. 6.8. avem:
- O stare iniial a procesului de nvare;
- O posibil stare final a procesului de nvmnt: fiecare neuron din stratul de ieire a
descoperit un cluster n mulimea vectorilor de intrare, procesul de nvare a provocat
deplasarea vectorului triilor sinaptice ctre centrul de greutate al clusterului
corespunztor.

Aceasta reprezint esena procesului de nvare nesupervizat competitiv:
detectarea de clustere n mulimea vectorilor de intrare.

Interpretarea geometric a procesului de nvare este urmtoarea:

- relaia (6.52) definete neuronul "nvingtor" relativ la un vector de intrare x, i
anume neuronul care genereaz cea mai mare valoare de ieire w
i
x;
- "nvingtorul" relativ la un vector de intrare (un punct pe sfera unitate din Fig. 6.8)
va fi cel mai apropiat vector al triilor sinaptice ( o cruciuli de pe sfera unitate
din Fig. 6.8);
- vectorul triilor sinaptice w
i
ce corespunde neuronului "nvingtor" este modificat
pe baza legii de nvare (6.60) sau (6.61), fiind deplasat ctre vectorul de intrare x
curent;

155
- n acest fel vectorii de intrare x provoac competiia neuronilor din stratul de ieire
ncercnd s "aduc" vectorul corespunztor al triilor sinaptice ct mai aproape de
el;
- n Fig. 6.8. (b) avem reprezentat o posibil stare final stabil a procesului de
nvare, cnd neuronii din stratul de ieire sunt declarai nvingtori n mod
echiprobabil.

Problema care poate constitui un obstacol pentru a se atinge o stare final stabil
(nvare cu succes) a procesului de nvare, este c pot exista vectori ai triilor sinaptice w
i

situai la o distan prea mare de orice vector de intrare, consecina fiind c neuronul din
stratul de ieire care-i corespunde nu va niciodat un "nvingtor" i prin urmare nu va nva
niciodat (de fapt nu va fi niciodat actualizat pe baza relaiilor (6.60) sau (6.61)). Un astfel
de neuron din stratul de ieire ce nu "nvinge" niciodat este numit neuron mort. Existena
neuronilor mori poate fi prevenit prin mai multe strategii posibile:
- putem iniializa vectorii triilor sinaptice cu valori egale cu vectori de intrare
provenii din mulimea de antrenament;
- putem actualiza i vectorii "nvini" folosind relaiile (6.60) sau (6.61), ns cu o
rat de nvare q foarte mic [173]; prin aceasta vectorul triilor sinaptice ce
corespunde unui neuron din stratul de ieire ce este un "nvins permanent" va fi
deplasat ctre media vectorilor de intrare ceea ce va crete ansele acelui neuron ca
s devin un neuron "nvingtor";
- putem folosi o versiune modificat a vectorilor de intrare x

, sub forma ox

+(1-
o)v, unde v reprezint un vector constant cu care au fost iniializai toi vectorii
triilor sinaptice w
i
. Pe parcursul procesului de nvare parametrul o parcurge
gradual valori cresctoare de la 0 la 1, ceea ce provoac iniial (o ~ 0) apropierea
vectorilor triilor sinaptice ctre vectorul v, pe msur ce procesul de nvare
progreseaz (o ~ 1) acetia se apropie de vectorii de intrare [95];
- putem utiliza un termen Bias [54] sub forma unui nivel de activare
i
aplicat la
valoarea de intrare n neuronii stratului de ieire I
j
(6.52); pentru neuronii care nu
reuesc s nving putem regla nivelul de activare
i
n aa fel nct acetia s
genereze o valoare de ieire mai mare, ceea ce le crete ansa de a deveni
"nvingtori" [19].


VI.5.3. Studiul convergenei


Dup cum am menionat n paragraful precedent, problema convergenei legii de
nvare competitive ctre o "soluie optim" este foarte dificil deoarece noiunea de "soluie
optim" relativ la o problem de clustering nu este definibil riguros din punct de vedere
matematic.
n literatura de specialitate, de cel mai mare interes s-a bucurat legea de nvare
competitiv standard (6.61), pentru care s-a ataat o funcie cost [167] de urmtoarea form:

( )
2
2
*
2
1
2
1
) (

= =


j i
i
ij j i ij
w x M w F w x (6.64)

156
unde M
i

este o pondere ce reprezint matricea de apartenen la clustering, mai precis,


specific dac un vector de intrare x

determin ca al i-lea neuron de ieire s fie declarat


nvingtor. Acest lucru poate exprimat matematic astfel:

M
i i
i


=
=

1
0
, ( )
,
*
dac
altfel
(6.65)

Deoarece neuronul nvingtor i
*
este funcie de parametri i w
ij
, matricea de
apartenen clustering M
i

se va modifica pe parcursul procesului de nvare. Dac aplicm


metoda clasica a gradientului descendent [54] relativ la funcia cost (6.64) vom obine:


( ) Aw
F
w
M x w
ij
ij
i j ij
= = q
c
c
q

(6.66)

Formula de mai sus reprezint exact legea de nvare competitiv standard (6.61),
nsumat relativ la toi vectorii de intrare x

pentru care al i-lea neuron de ieire este


"nvingtorul". n acest fel, pentru o rat de nvare , suficient de mic, n medie, legea de
nvare va provoca o descretere treptat a funciei cost (6.64) pn la atingerea unui minim
local.
Din pcate, punctele de minim local sunt numeroase, ele corespunznd la diferite
posibiliti de clustering ale datelor de intrare. Dar meritul introducerii funciei cost este
incontestabil: ea ne permite s cuantificm calitatea clusteringului prin prisma valorii
minimului local. S remarcm totui c nu avem nici o garanie teoretic care s ne garanteze
atingerea minimului global a funciei cost (6.64), chiar dac aplicm o serie de procedee de
optimizare, cum ar fi de exemplu revenirea simulat (simulated annealing).
Modificarea triilor sinaptice se poate face i printr-o acumulare a modificrilor
provocate prin prezentarea unor vectori de intrare x

, eP'c P, actualizarea lor efectiv fiind


fcut abia dup ce s-au totalizat schimbrile Aw
ij
provocate de prezentarea vectorilor de
intrare
p


x x x ,..., ,
2 1
din mulimea de antrenament.
Demonstrarea efectiv a stabilitii i a convergenei legii de nvare competitiv
(6.66) a putut fi demonstrat doar pentru cazul particular al unor date mprtiate eficient,
adic exist o mulime de clustere pentru care proiecia (overlap) minim x

x
v
a unui cluster
depete proiecia maxim dintre acel cluster i oricare altul.
O metod practic [96], aplicabil n calculul neuronal, este descreterea ratei de
nvare n timpul procesului de nvare. Acest lucru este necesar deoarece o rat de nvare
mare la nceputul procesului de nvare ncurajeaz lrgirea cadrului de explorare pe parcurs
ce procesul nainteaz, rate de nvare mici permit rafinri ale triilor sinaptice. S-au impus
urmtoarele tipuri de rate de nvare, funcie de timpul parcurs de procesul de nvare:

( ) q q o q q o
o
( ) , , ( ) t t sau t t = s =

0 0
1 1 (6.65)

O alt posibilitate este de a stabili la nceputul procesului de nvare o anumit funcie
cost i de a deduce o lege de nvare pe baza acestei funcii cost. Un exemplu interesant poate
fi gsit n [11], unde forma ptratic (6.64) este nlocuit cu:

( ) F w
p
M x w
ij i
i j
j ij
p
( ) =

1
2 1

(6.66)

157

VI .6. Aplicaii ale nvrii nesupervizate

VI.6.1. Scheme auto-organizabile

Schemele auto-organizabile, numite SOM (Self-Organizing Map) reprezint de fapt
un model particular de reea neuronal, pentru care neuronii constitueni devin sensibili la
anumii vectori de intrare sau clase de vectori de intrare, prin intermediul unui proces de
nvare nesupervizat competitiv.
Neuronii sensibili la diferii vectori de intrare tind s se ordoneze, ca i cum reeaua
neuronal ar reprezenta un sistem de coordonate, pentru vectorii de intrare. Localizarea
spaial sau coordonatele unui anumit neuron al reelei neuronale va corespunde unui
domeniu particular al mulimii vectorilor de intrare. Fiecare neuron sau grup de neuroni se
comport ca un decodor pentru acelai vector de intrare.
Conform cercetrilor medicale, s-a putut pune n eviden, o hart topografic foarte
detaliat a creierului, i n mod special al cortexului cerebral. Numeroasele formaiuni
corticale din masa celular par a conine mai multe "hri" [113], adic o locaie particular a
rspunsului neuronal din hart corespunde direct unei caliti i modaliti a semnalului
senzorial. Unele hri, ndeosebi cele ce corespund ariilor senzoriale, sunt ordonate n
concordan cu anumite trsturi dimensionale ale semnalelor senzoriale; de exemplu, n
zonele vizuale, s-a dovedit existena unor hri pentru orientarea liniilor i pentru culori. O
alt hart seniorial este harta somatotropic care conine o reprezentare a corpului uman,
adic a suprafeei pielii. Anumite hri reprezint caliti abstracte ale semnalelor senzoriale.
De exemplu, n zona responsabil de procesarea cuvintelor, rspunsurile neuronale sunt
organizate n concordan cu categoriile i valorile semantice ale cuvintelor.
Toate cercetrile efectuate n ultima perioad de timp vin s confirme faptul c
reprezentare intern a informaiei n creier este spaial. Pe aceast baza s-au construit reelele
neuronale de tip SOM, ca o ncercare de a modela biologia creierului uman.

VI .6.1.1. Algoritmul

S considerm o reea neuronal bidimensional de neuroni ca aceea reprezentat n
Fig.6.9. Modul de aranjare a acestor neuroni poate fi dreptunghiular, hexagonal etc.
S considerm c vectorii de intrare x e R
n
, prezentai la stratul de intrare, sunt
conectai prin intermediul neuronilor stratului de intrare la toi ceilali neuroni ai reelei
neuronale.
Conform notailor uzuale, w
i
= (w
i1
,w
i2
,...,w
in
) e R
n

va reprezenta vectorul triilor
sinaptice ce corespunde celui de-al i-lea neuron al reelei. Cea mai simpl msur a corelaiei
dintre vectorul de intrare x i vectorul triilor sinaptice w
i
o reprezint produsul scalar x w
i
.
Dac necesitile practice impun o mai mare rigurozitate, se pot folosi i alte criterii pentru a
alege neuronul ce corespunde vectorului de intrare x bazat pe o distan Euclidian dintre x i
w
i
. Distana minim va defini neuronul "nvingtor" w
c
.



158
x
w
2
w
3
w
4

w
i















Fig.6.9. Arhitectura unei reele neuronale de tip SOM.

Este esenial n formarea schemelor (hrilor) de neuroni, ca neuronii care particip la
procesul de nvare s nu fie afectai independent unul de altul (ca i n cazul nvrii
competitive nesupervizate), ci ca submulimi de neuroni corelate topologic, fiecare neuron
dintr-o astfel de submulime suferind o corecie similar. n timpul procesului de nvare
astfel de submulimi selectate vor nconjura diferii neuroni. Corecia pe care o vom efectua la
fiecare neuron va tinde s devin tot mai lin, pe msur ce procesul de nvare progreseaz.
Cel mai important rezultat al acestui tip de nvare corelat spaial l constituie faptul
c vectorii triilor sinaptice tind ctre vectori ordonai de-a lungul axelor reelei neuronale
[117].
n reelele neuronale biologice, nvarea corelat spaial este implementat cu ajutorul
diferitelor conexiuni feedback laterale i cu alte tipuri de interaciuni laterale. n modelul
nostru artificial, vom fora interaciunile laterale direct din arhitectura general a reelei
neuronale. Pentru aceasta vom defini pentru fiecare neuron c o submulime numit vecintate
i notat N
c
.

Def 3.1: Vecintatea N
c
este o submulime centrat n acel neuron c pentru care avem ce-a
mai bun corelaie cu vectorul de intrare, adic:

{ }
i c
min w x w x =
i
(6.67)

Raza vecintii N
c
poate fi o funcie de timp: considerente experimentale au dovedit
c la nceputul procesului de nvare este avantajoas o raz mare pentru N
c
care, pe msur
ce procesul de nvare progreseaz, se ngusteaz tot mai mult, ca n Fig.6.10. Explicaia
acestui proces de reducere monoton a razei vecintii N
c
este c la nceput o raz mare
corespunde unei rezoluii spaiale dezordonate a procesului de nvare, dup care ngustarea
razei mbuntete rezoluia spaial a reelei neuronale. Este chiar posibil ca procesul de
nvare s sfreasc cu N
c
={c}, ceea ce de fapt corespunde unui proces de nvare
competitiv nesupervizat.






w
1

159















Fig.6.10. Exemplu de vecinti topologice N
c
(t), cu t
1
<t
2
<t
3
.

Procesul de nvare poate fi exprimat matematic astfel:


( )

e
e
= A
c
c
i
N i
N i
w
dac
dac
, 0
,
i
w x q
(6.68)


unde 0 < q < 1 reprezint rata de nvare, fiind un parametru descresctor dependent de timp
q = q(t).

O alt posibilitate o reprezint introducerea unei funcii scalare de proximitate
(vecintate) tip "kernel" h
ci
=h
ci
(t), asfel nct avem:

( )

e
e
= = A
c
c
ci ci i
N i dac
N i dac
h h w
, 0
,
,
i
q
w x (6.69)

Inspirndu-ne din modelele biologice, unde interaciunile laterale au forma unei curbe
tip "clopot" (bell shape), putem considera o form mai general pentru funcia kernel: notnd
cu r
c
i r
i
vectorii de poziie ce corespund coordonatelor neuronilor c i i, obinem:


2
2
0
o
c i
e h h
ci
r r

= (6.70)

unde h
0
=h
0
(t) i o = o(t) sunt funcii descresctoare de timp.

VI .6.1.2. Experimente i simulri

Vom folosi o serie de rezultate practice, obinute n [117], n urma unor simulri a
funcionrii reelelor neuronale de tip SOM. Rezultatele simulrii vor pune n eviden
fenomenul suferit de vectorii triilor sinaptice, de a tinde s aproximeze funcia de densitate
probabilistic cu care sunt generai vectorii de intrare. n exemplele pe care le vom prezenta,
vectorii de intrare au fost alei din considerente de vizualizare ca fiind bi-dimensionali,
funcia de densitate probabilistic care-i genereaz fiind selectat arbitrar n aa fel nct s
N
c
(t
1
)
N
c
(t
2
)
N
c
(t
3
)
160
aib o distribuie uniform peste aria demarcat de frontierele triunghiulare i ptratice. n
afara frontierelor funcia de densitate probabilistic este nul.
Vectorii de intrare x sunt generai independent i aleator de ctre funcia de densitate
probabilistic sunt aplicai stratului de intrare i folosii pentru a modifica triile sinaptice pe
baza procesului de nvare.
Vectorii triilor sinaptice w
i
sunt reprezentai ca puncte n acelai sistem de
coordonate, ca i vectorii de intrare x; pentru a putea indica crui neuron i corespunde
vectorul triilor sinaptice w
i
, punctele corespunztoare vectorului w
i
au fost conectate printr-o
latice de puncte, conform cu topologia reelei neuronale. Cu alte cuvinte, o linie ce
conecteaz doi vectori w
i
i w
j
are rolul de a indica faptul c neuronii i i j sunt adiaceni n
arhitectura reelei neuronale.
n Fig 6.11. aranjamentul neuronilor este rectangular. n Fig.6.12. neuronii sunt
interconectai prin intermediul unui lan liniar.
n ambele exemple se poate observa modul de evoluie al procesului de auto-
organizare. Valorile iniiale pentru vectorii triilor sinaptice au fost obinute dintr-o distribuie
aleatoare, dintr-un domeniu limitat de valori.
Fig.6.11. Vectorii triilor sinaptice pe parcursul procesului de nvare. Reeaua neuronal are o
arhitectur de tablou bi-dimensional. Lng fiecare figur sunt trecute numrul de
iteraii din procesul de nvare.

0 20 100
1000 10000 25000

161
Fig.6.12. Vectorii triilor sinaptice pe parcursul procesului de nvare. Reeaua neuronal are o
arhitectur de tablou uni-dimensional. Lng fiecare figur sunt trecute numrul de
iteraii din procesul de nvare.

Un alt exemplu de reea neuronal bi-dimensional ce reprezint o funcie de densitate
probabilistic tri-dimensional este reprezentat n Fig.6.13.
Obs.6.4: a). Deoarece n acest caz procesul de nvare este un proces stocastic, precizia
statistic final depinde de numrul de pai efectuai de procesul de nvare, care
trebuie s fie suficient de mare. O regul inspirat din considerente practice [117]
este ca numrul pailor de nvare s fie cel puin 500 - numrul de neuroni ai
reelei neuronale.
b). Pentru primii 1000 de pai ai procesului de nvare, rata de nvare trebuie s
aib o valoare apropiat de 1, urmnd ca n timp s descreasc monoton. O alegere
rezonabil pentru rata de nvare este:

q( ) . t
t
=
|
\

|
.
| 09 1
1000
(6.71)

Ordonarea triilor sinaptice apare de fapt n prima faz a procesului de nvare,
paii finali fiind necesari pentru reglarea fin. n faza de reglare fin a triilor
sinaptice, rata de nvare q trebuie s ia valori mici, de exemplu q s 0.01.
c). O atenie deosebit trebuie acordat alegerii vecintii N
c
=N
c
(t). Dac
vecintatea de pornire aleas este prea mic, schema nu se va ordona global,
aprnd o mulime de "parcele" n care ordonarea se schimb n mod discontinuu.
Acest fenomen poate fi nlturat dac pornim procesul de nvare cu o vecintate
N
c
=N
c
(0) mai larg, pe care apoi o ngustm n timp. Este recomandabil ca raza de
pornire a vecintii s fie mai mare dect jumtate din diametrul reelei neuronale.
Dup faza de ordonare (aproximativ primii 1000 de pai), vecintatea poate fi
ngustat liniar, cu un neuron.

162
d). Uneori este util normalizarea vectorilor de intrare x, nainte de a fi prezentai la
stratul de intrare al reelei neuronale n cadrul procesului de nvare. Avantajul
normalizrii este mbuntirea preciziei deoarece vectorii rezultai tind s aib
aceeai dinamic.




Fig.6.13. Reprezentarea unei funcii de densitate probabilistic uniform tri-dimensional prin
intermediul unei scheme auto-organizabile bi-dimensional.

e). Un alt aspect menionat mai devreme, este posibilitatea de a aplica o msur mai
general a distanei dintre vectori. De exemplu, dac msura o reprezint msura de
similaritate a produsului, atunci ecuaiile procesului de nvare pot fi rescrise
astfel:

{ }
i
i
c
w x w x = max (6.72)

e
e
+
+
=
c
c
N i dac
N i dac
,
,
i
i
i
i
w
x w
x w
w
q
q
(6.73)

unde rata de nvare qe(0,); de exemplu q = 100 / t.



163
VI .6.1.3. nvarea vectorial cuantificat


A. Generaliti


Metoda vectorial cuantificat (VQ - Vector Quantization) este o metod care
realizeaz aproximarea unei funcii de densitate probabilistic continu P(x) a vectorilor de
intrare x, folosind un numr finit de vectori de codificare w
i
, i = 1, 2 ,..., k aparinnd unei
mulimi numit cod.
Dup ce s-a ales mulimea cod, aproximarea lui x reprezint de fapt determinarea unui
vector de referin w
c
, situat "cel mai aproape" de x. Poziia optim a vectorilor w
i
este aceea
care minimizeaz funcia eroare:


dx P E
r
c
) (x w x
}
=
(6.74)

unde c=c(x) reprezint indexul vectorului de codificare cel mai apropiat de x (vectorul
"nvingtor"):

{ }
i c
min w x w x =
i
(6.75)

Conform cu [78], plasarea optimal a vectorilor de codificare w
i
n spaiul datelor de
intrare, dat de minimizarea funciei eroare (6.74), reprezint o aproximare a funciei de
densitate probabilistic
r n
n
P
+
) (x , n fiind dimensionalitatea vectorilor x i w
i
.
Aplicarea criteriului celor mai mici ptrate (r = 2) relativ la regula delta [54], va defini
asimptotic valorile optimale. Fie w
c
cel mai apropiat vector de codificare de vectorul de
intrare x, n metrica Euclidian. Optimizarea gradient descendent [54] a funciei eroare E
(6.74) n spaiul vectorilor w
c
va genera ecuaia:


( )

=
=
= A
c i pentru
c i pentru
, 0
,
c
i
w x
w
q
(6.76)

cu rata de nvare q e (0,1) o funcie scalar monoton descresctoare.
n general, dac exprimm disimilaritatea dintre x i w
i
prin intermediul unei funcii
distan d(x, w
i
), trebuie ca prima dat s identificm vectorul "nvingtor" w
c
, astfel nct:

( ) ( ) { }
i c
, min , w x w x d d
i
= (6.77)

Dup aceasta, trebuie aleas o regul de actualizare (lege de nvare) n aa fel nct
distana d s descreasc monoton: corecia Aw
i
trebuie aleas astfel nct :

0 ) , (
i i
< A w w x d grad
i
w
(6.78)

Dac SOM este utilizat pentru clasificarea formelor (pattern classifier), unde
neuronii sunt grupai n submulimi, fiecare submulime corespunznd unei clase discrete de
forme, atunci problema devine un proces decizional, trebuind a fi tratat ntr-o manier puin
164
diferit. SOM, ca orice metod de VQ, este destinat aproximrii valorile semnalelor de
intrare sau a funciei lor de densitate probabilistic, prin cuantificarea vectorilor de codificare
situai n spaiul de intrare, pentru a minimiza o funcie de eroare. Pe de alt parte, dac
mulimea semnalelor de intrare trebuie clasificat cu ajutorul unui numr finit de categorii,
atunci diferii vectori de codificare vor fi reprezentanii fiecrei clase, identitatea lor n cadrul
clasei nemaifiind important. De fapt, doar deciziile efectuate la frontiera clasei sunt
importante. Prin aceasta, devine posibil definirea unor valori pentru vectorii de codificare
astfel nct ei s defineasc frontiere decizionale optimale ntre clase. Aceste strategii au fost
introduse de Kohonen [117] i sunt denumite nvare vectorial cuantificat (LVQ -
Learning Vector Quantization).

B. nvarea vectorial cuantificat de tip I (LVQ1)

Dac mai muli vectori de codificare sunt asignai fiecrei clase i fiecare dintre ei este
etichetat cu simbolul clasei corespunztoare, atunci regiunile ce corespund claselor n spaiul
vectorilor de intrare x sunt definite printr-o simpl comparaie de proximitate a lui x cu w
i
;
astfel eticheta celui mai apropiat vector de codificare w
i
definete clasificarea vectorului de
intrare x.
Pentru ca procesului de nvare s genereze poziia optim a vectorilor w
i
, trebuie s
stabilim pentru aceti vectori valori iniiale pe baza oricrei metode clasice VQ sau prin
algoritmul SOM. Aceste valori iniiale corespund aproximativ funciei de densitate
probabilistic P(x) a datelor de intrare.
Urmtoarea faz o reprezint determinarea etichetelor vectorilor de codificare, prin
prezentarea unui numr de vectori de intrare cu clasificare cunoscut i prin asignarea
diferiilor neuroni ai reelei la diferite clase pe baza votului majoritar obinut prin frecvena cu
care fiecare vector w
i
este mai apropiat de vectorii de calibrare a unei anumite clase.
Precizia clasificrii poate fi mbuntit dac vectorii w
i
sunt actualizai pe baza
urmtorului algoritm de nvare: vom "ndeprta" vectorii de codificare w
i
de suprafeele
decizionale, cu scopul de a demarca frontierele claselor cu mai mare acuratee.
Fie w
c
vectorul cel mai apropiat de vectorul de intrare x, distan fiind n metrica
Euclidian. Aplicm la stratul de intrare un vector de intrare x a crui clasificare este
cunoscut i actualizm vectorul w
i
dup legea:


( )
( )
c i pentru
incorect clasificat este dac
corect clasificat este dac
= = A



= A
, 0
,
,
i
c
c
c
w
x w x
x w x
w
q
q
(6.79)

Obs 6.5: a). Deoarece relaia de mai sus reprezint o adaptare fin, valoarea recomandabil
pentru rata de nvare q la nceputul procesului de nvare este 0.01, care va descrete treptat
ctre 1, n decursul a 100.000 pai de nvare.
b). Semnul minus n cazul unei clasificri incorecte a vectorului x are semnificaia c
coreciile sunt efectuate n concordan cu legea (6.73) aplicat clasei creia aparine w
c
,
dar cu funcia de densitate probabilistic a clasei nvecinate extras din clasa lui w
c
.
Cu alte cuvinte, aplicm funciei |p(x|C
i
)P(C
i
)-p(x|C
j
)P(C
j
)| clasica metod VQ unde:
- C
i
i C
j
sunt clasele vecine;
- p(x|C
i
) este funcia de densitate probabilistic condiional a vectorilor de intrare x
ce aparin clasei C
i
;
- P(C
i
) este probabilitatea a priori de apariie a reprezentailor clasei C
i
;
165
n Fig. 6.14 avem un exemplu n care vectorii de intrare x sunt bidimensionali, iar
funciile de densitate probabilistic ale claselor au poriuni comune. Suprafaa de decizie
definit de procesul de clasificare este local liniar.
Fig. 6.14. (a) Funcia de densitate probabilistic a vectorilor de intrare x = (x
1
,x
2
) reprezentat prin
puncte. Avem dou funcii de densitate probabilistic de tip Gauss, corespunznd la dou
clase diferite C
1
i C
2
, avnd centrele reprezentate cu cruce de culoare alb, respectiv
cercule alb. Curba solid reprezint suprafaa decizional optim teoretic. (b) Punctele
reprezint reprezentanii clasei C
1
, cerculeele reprezint reprezentanii clasei C
2
; Curba
solid: suprafaa de decizie pentru LVQ, curba punctat:suprafaa de decizie teoretic
optim.


C. nvarea vectorial cuantificat de tip II (LVQ2)


Algoritmul de nvare LVQ1 poate fi mbuntit prin urmtoarea strategie, numit
nvare vectorial cuantificat de tip II - LVQ2:
- s presupunem c doi vectori de codificare w
i
i w
j
, ce aparin la dou clase
diferite i sunt vecinii cei mai apropiai relativ la spaiul datelor de intrare, sunt n
faza iniial n poziie greit. Suprafaa de discriminare (incorect n acest caz)
este ntotdeauna definit ca planul mediator a vectorilor w
i
i w
j
;
- s definim o "fereastr" (window) simetric de lime nenul n jurul planului
mediator a lui w
i
i w
j
i s stabilim urmtoarea regul:

Asupra vectorilor w
i
i w
j
se vor efectua corecii dac i numai dac x este coninut n
fereastr, dar de partea eronat a planului mediator (vezi Fig. 6.15).

166

Fig.6.15. n figura de mai sus este reprezentat "fereastra" din algoritmul de nvare LVQ2.
Curbele din figur reprezint distribuia claselor vectorilor de intrare x.

Ecuaiile corespunztoare acestei ajustri a vectorilor de codificare w
i
i w
j
sunt:


( )
( )
j j
i i
w w x
w x w
= A
= A
q
q
(6.80)

dac C
i
este cea mai apropiat clas, dar x aparine clasei C
j
= C
i
, unde C
j
este vecina celei
mai apropiate clase C
i
. n toate celelalte cazuri:

j i k , , 0
k
= = Aw

Limea optimal a ferestrei trebuie determinat experimental, depinznd de numrul
datelor de intrare pentru nvare. Dac numrul datelor de nvare este relativ mic, atunci se
poate alege o lime de la 10% pn la 20% din diferena dintre w
i
i w
j
.
Dac dimensionalitatea datelor de antrenament este mare, atunci avem nevoie de o
definiie mai practic a dimensiunii ferestrei. Este recomandabil ideea de a defini fereastra n
termeni de distane d
i
i d
j
la w
i
i w
j
cu o raie constant s. n acest fel, frontierele ferestrei
devin nite hiper-sfere. Vom putea spune astfel c x aparine ferestrei dac:

min ,
d
d
d
d
s
i
j
j
i
|
\

|
.
| > (6.81)

Dac notm cu L limea minim a ferestrei, atunci:

s
L
L
=

+
1
1
(6.82)

Dimensiunea optim a ferestrei depinde de numrul de date de intrare de antrenament-
nvare. De asemenea, rata de nvare q trebuie s aib o valoare de pornire mic de
aproximativ 0.02, urmnd a fi micorat treptat pe parcursul procesului de nvare, tinznd
ctre valori foarte mici (zero) dup aproximativ 10 000 de pai.

167

D. nvarea vectorial cuantificat de tip III (LVQ3)


Algoritmul de nvare LVQ2 s-a bazat pe ideea deplasrii frontierei decizionale
practice ctre frontiera teoretic optim, numit i frontier decizional Bayes. Algoritmul nu
ia ns n considerare ce se ntmpl pe parcursul proceselor de nvare lungi, cu poziionarea
vectorilor de codificare w
i
. n literatura de specialitate au fost puse n eviden dou tipuri de
efecte negative, aprute pe parcursul procesului de nvare:

- deoarece coreciile efectuate asupra vectorilor de codificare w
i
sunt proporionale
cu diferena x - w
i
sau x w
j
, corecia efectuat asupra lui w
i
(clasa corect) este
de magnitudine mai mare dect cea efectuat asupra lui w
j
(clasa incorect);
aceasta va conduce la descreterea monoton a distanei
j i
w w . Remediul
compensrii acestui efect nedorit, este de a accepta toi vectorii de antrenament din
"fereastr" i de a impune doar condiia ca w
i
i w
j
s aparin unul la clasa corect
i cellalt la clasa incorect.

- dac procesul de nvare (6.80) continu peste o anumit limit, poate conduce la
un punct asimptotic de echilibru al vectorului w
i
care ns s nu fie optimal. De
aceea, este necesar s prevedem anumite corecii n legea de nvare, corecii care
s asigure faptul c w
i
aproximeaz continuu distribuia clasei.

Combinnd aceste idei, vom obine un algoritm mbuntit [117], numit LVQ3:


( )
( )
j j
i i
w x w
w x w
= A
= A
q
q
(6.82)

unde w
i
i w
j
sunt doi din cei mai apropiai vectori de codificare de vectorul x, vectorii x i w
j

aparin aceleiai clase, n timp ce x i w
i
aparin la clase diferite, iar x este situat n "fereastr";

( ) { } j i k
k k
, , e = A w x w cq

iar x, w
i
i w
j
aparin aceleiai clase.

Obs 6.6: a). Valorile folosite n aplicaiile practice pentru parametrul c sunt din intervalul 0.2
- 0.5. Valoarea optimal a lui c este dependent de dimensiunea ferestrei, fiind mai
mic pentru ferestre mai nguste.
b). Algoritmul LVQ1 modific la un pas al procesului de nvare doar un vector
w
i
, n timp ce algoritmii LVQ2 i LVQ3 modific doi vectori de codificare w
i
i w
j
.


VI.6.2. Hri de trsturi (feature mapping)

VI .6.2.1. Algoritmul

Algoritmul de nvare (6.69) este numit i algoritmul Kohonen pentru scheme de
trsturi (feature extraction). Problemele care apar sunt urmtoarele:
168
- ce fel de schem produce algoritmul ?
- converge algoritmul de nvare ?
- apar probleme cu blocarea algoritmului n stri non-optimale (minime locale)?
- cum depinde rspunsul la aceste ntrebri de forma i evoluia n timp a funciei de
proximitate kernel h
ik
i a ratei de nvare q ?
- sunt valorile acestor parametrii optimale ?

Rspunsul la aceste ntrebri este dificil, majoritatea studiilor avnd n vedere doar
scheme unidimensionale. Studiul va folosi o funcie cost (eroare), bazat pe o extensie a
nvrii competitive din lucrarea [168]:

( ) ( )

= =

i
i ic ij j ik
k j i
k ij
h w x h M w E
2
2
2
1
2
1
w x (6.83)


( )

=
=
altfel
c i dac
M
i
, 0
, 1

(6.84)

i
M reprezint matricea de apartenen la clustering. Relaia c() vrea s pun n eviden
faptul c neuronul "nvingtor" c, depinde de datele de antrenament.

Aplicnd metoda gradientului descendent [54] relativ la funcia cost (6.83) vom
obine:

( ) ( ) Aw
E
w
M h x w h x w
ijj
ij
k
k
ik j ij ic j ij
= = = q
c
c
q q

(6.85)

Relaia de mai sus reprezint algoritmul lui Kohonen (6.69) nsumat relativ la
mulimea datelor de antrenament. Astfel, n medie, pentru o rat de nvare q suficient de
mic, algoritmul lui Kohonen provoac descreterea funciei cost (6.83), pn cnd se atinge
un punct de minim, care poate fi ns un punct de minim local.
Pentru a obine un punct de echilibru, vom impune condiia:

Aw
ij
= 0 (6.86)

de unde vom obine:

( ) h x w
ic j ij

= 0 (6.87)

Aceast ecuaie este dificil de rezolvat. n cazul unei distribuii probabilistice uniforme
a vectorilor de intrare x

, ecuaia poate fi satisfcut de o distribuie uniform [96] a vectorilor


w
i
n acelai spaiu, cu condiia ignorrii frontierelor. Pentru cazul general, soluia este de a
lua n considerare o aproximare continu, de forma:

| |
}
=

0 x ) ( ) (
(x) r r
c
d P h x r w x (6.88)

169
Suma discret

relativ la mulimea vectorilor de antrenament, se transform prin


intermediul aproximrii continue n integrala
}
x ) ( d P x . Aceasta va permite, ca pentru o
distribuie aleatoare a vectorilor de intrare x, indexul i al vectorului de ieire s fie considerat
un vector de poziie r. Atunci vom scrie h
r r (x)
c

n loc de h
rr (x)
c
; n mod normal se alege o
funcie de proximitate h care s fie dependent doar de distana dintre r i "nvingtorul" r
c
(x).
Pentru o distribuie probabilistic dat P(x), se cunoate o soluie explicit a ecuaiei
(6.88) doar pentru cazul unidimensional sau pentru anumite cazuri particulare
multidimensionale care permit factorizarea ntr-un produs de cazuri unidimensionale [168].
Soluia obinut n aceast situaie arat c triile sinaptice iau valori constant cresctoare sau
descresctoare, cu o funcie de densitate probabilistic a neuronilor de ieire proporional cu
P(x)
2/3
n vecintatea punctului x.
Evident, o reprezentare ideal ar trebui s genereze funcia de densitate probabilistic
P(x) n loc de P(x)
2/3
, ceea ce arat c algoritmul lui Kohonen tinde s subevalueze regiunile
cu probabilitate mare i s supraevalueze regiunile cu probabilitate mic.
Vom schia n cele ce urmeaz, calculul care justific afirmaia de mai sus, c funcia
de probabilitate probabilistic a neuronilor de ieire tinde ctre P(x)
2/3
[96]:
- nlocuind n ecuaia (6.88) vectorul de poziie r cu variabila z, i presupunnd c funcia
de proximitate h
z z (x)
c

este o funcie mrginit par, atunci putem exprima termenul de


integrat din (6.88) n factori de puteri:

] = z
c
(x) - z (6.89)

- termenii mai mici dect ]
2
vor fi ignorai. Prin aceasta vom obine:

- h
z z (x)
c

devine h
-
]
, de unde pe baza ipotezei de paritate aceasta va
deveni h
]
;
- x devine w(z
c
) sau w(z +]), i astfel x-w(z) se expandeaz n termenul:

" '
2
2
1
w w c c + (6.90)

- P(x) devine P(w(z
c
)) = P(w(z + ])), dezvoltndu-se n:

P(w) + ]P'(w)w' (6.91)

- dx devine dw(x + ]), obinndu-se w'(x + ]), care se dezvolt n:

(w' + ]w") d] (6.92)

nlocuind aceste relaii n ecuaia (6.88), grupnd dup puterile lui ] i ]
2
(restul
termenilor de ordin mai mare fiind neglijai), obinem:


( )( )( )
( ) ( )
( )
}
}
}
= + =
= + + =
= + + +
0 ) ( ' ' ) ( " '
) ( ' ' ) ( " ' ) ( '
" ' ' ) ( ' ) ( " '
2 2
2
3
2
2
3
2 2
2
2
1
c c
c c c
c c c c c
c
c
c
d h P P
d P P P h
d P P h
w w w w w
w w w w w w w
w w w w w w w
(6.93)

170
Termenul n ] va dispare datorit paritii funciei de proximitate h
]
. Presupunnd c
w'(z) este nenul, vom avea:

0 ) ( ' ' ) ( "
2
2
3
= + w w w w P P (6.94)

de unde obinem:

) ( log
3
2
) (
' ) ( '
3
2
'
"
' log w
z w
w w
w
w
w
z
P
d
d
P
P
d
d
= = = (6.95)


3
2
) ( '

w w P (6.96)

Deoarece funcia de densitate probabilistic a neuronilor de ieire n spaiul w (sau n
spaiul x) este |dz / dw| sau |1 / w'|, relaia de mai sus reprezint rezultatul dorit.

Obs. 6.7: Ecuaia diferenial (6.94) poate fi rezolvat pentru o valoare particular a
distribuiei probabilistice P(x). De exemplu dac P(x) x
o
atunci rezolvnd ecuaia (6.94)
vom obine w(z) z
|
, unde | = 1 / (1 + 2o / 3).


VI .6.2.2. Convergena algoritmului

Analiza stabilitii algoritmului nu ne spune nimic despre problema convergenei
algoritmului, ci doar despre strile sale de echilibru. Evident, algoritmul trebuie s ajung la o
stare de echilibru. n lucrarea [34] se face o analiz detaliat a problemei convergenei
algoritmului lui Kohonen, obinndu-se condiiile pe care trebuie s le satisfac rata de
nvare q(t) pentru a sigura convergena algoritmului. Analiza se bazeaz pe considerarea
algoritmului lui Kohonen ca un proces Markovian.
Problema convergenei algoritmului se consider ca avnd dou faze distincte:

faza 1: faza de instabilitate i oscilaie a algoritmului;

faza 2: algoritmul tinde s adapteze triile sinaptice, reeaua genernd tot mai precis
funcia de densitate probabilistic P(x).

De cele mai multe ori faza de instabilitate este faza cea mai ndelungat a convergenei
algoritmului.
Geszti [79] studiaz problema convergenei algoritmului n cazul unidimensional.
Studiul se bazeaz pe observaia c un ir monoton cresctor sau descresctor de trii
sinaptice w
i
rmne monoton n procesul de nvare. Acest lucru poate fi pus n eviden prin
rescrierea legii de nvare a lui Kohonen:

( )
i ic i
h w x w = A q (6.97)

sub forma:

( ) ( )( )
old
i ic
new
i
h x w x w = q 1 (6.98)
171
c

Distana w
i
- x de la o trie sinaptic w
i
la o dat de intrare x este multiplicat cu
factorul (1 - qh
ic
). Acest factor de multiplicare tinde ctre 1 cu ct ne deprtm de neuronul
"nvingtor" c. Prin aceasta, ordinea monoton a valorilor triilor sinaptice nu se poate
schimba.


n Fig.6.16 se pune n eviden tocmai acest fenomen [96]:

















Figura 6.16: Scheme Kohonen unidimensionale. (a) Orice regiune monoton a triilor sinaptice
rmne monoton pe parcursul procesului de nvare. (b) Frontiera dintre dou
regiuni monotone poate s se deplaseze cu un pas la un pas al procesului de nvare.


Fenomenele cele mai interesante apar la frontiera dintre regiunile monoton ordonate.
O astfel de frontier poate sri dintr-o parte n alta aa cum se vede n Fig. 6.16 (a). De
asemenea, frontierele pot s se anuleze la punctele de ntlnire. Dar, n nici ntr-un caz nu pot
apare noi frontiere.
n Fig. 6.16 (b) putem nelege ct timp este necesar pentru ca procesul de nvare s
devin stabil. Abia la sfritul procesului de nvare instabilitatea tinde s difuzeze, ajungnd
a fi eliminat.









c
i
x
x
(a) (b) w
i
w
i

i
Frontier
172
173
VII. Proprietatea de aproximant universal a reelelor
neuronale

Caracteristica definitorie a reelelor neuronale ca i metode de calcul o reprezint
capacitatea lor de a nva. Pentru a rezolva o anumit problem nu este necesar elaborarea
unui algoritm care s descrie succesiunea de operaii care duc la rezolvarea acelei probleme,
ci prezentarea unor exemple pe baza crora reeaua neuronale s fie capabil s se configureze
n aa fel nct rezultatele pe care le va genera la stratul de ieire s reprezinte soluii ale
problemei nvate.
Procesul de nvare, privit prin prisma prezentrii unor exemple (date de
antrenament), cu scopul obinerii unor rezultate predefinite reprezint de fapt un proces
echivalent cu cel al aproximrii unei funcii de mai multe variabile. Astfel, procesul de
nvare ca i un proces de aproximare a unei aplicaii definite pe un spaiu de intrare cu valori
ntr-un spaiu de ieire, poate fi privit i ca un proces de sintez a unei memorii asociative,
care genereaz la prezentarea unor exemple nvate rezultatele dorite, iar la prezentarea unor
exemple noi are capacitatea de a generaliza [60].
n ultimii ani, reelele neuronale ca i cadru de aplicare al calculului neuronal, s-au
dovedit a fi metode eficiente pentru a rezolva probleme dificile care nici mcar nu erau
abordabile printr-un calcul algoritmic tradiional. Acest lucru a fcut ca numeroi cercettori
s efectueze o analiz riguroas a proprietilor matematice care fac ca reelele neuronale s
fie instrumente att de eficiente.
n acest capitol vom pune n eviden capacitatea reelelor neuronale de a fi metode
universale de aproximare, studiind prin prisma diferitelor rezultate matematice cum putem
pune n eviden acest lucru i cum poate fi exploatat acest lucru n aplicarea practic a
calculului neuronal.
Proprietatea de aproximant universal poate fi definit n felul urmtor:

Def.7.1: Fie F o familie de funcii i G _ F o subfamilie de funcii a lui F. Se noteaz cu d
funcia msura dintre dou elemente arbitrare a lui F (d (f , f) = 0). Vom spune c subfamilia
de funcii G posed Proprietatea de Aproximant Universal (PAU) n raport cu F i d, dac
pentru orice funcie f e F, exist un ir infinit de funcii g
n
e G, n e N cu proprietatea:

lim ( , ) d f g
n
= 0


VI I .1. Teorema lui Kolmogorov i perceptronul multistrat


VII.1.1. Preliminarii


Reamintim faptul c o reea neuronal de tip perceptron multistrat, notat pe scurt
PMS, este o reea neuronal cu propagare direct (feedforward) avnd un strat de intrare cel
puin un strat ascuns i un strat de ieire.
Deoarece un PMS cu mai muli neuroni n stratul de ieire poate fi considerat ca fiind
compus din atia PMS cu un unic neuron n stratul de ieire, ci are PMS iniial n startul de
ieire, putem restrnge studiul nostru la un PMS avnd un neuron unic n stratul de ieire.
174
De asemenea, deoarece n general datele de intrare aparin unui mulimi mrginite,
vom restrnge studiul nostru la hiper-cubul n-dimensional I
n
= [0,1] x [0,1] x ... x [0,1].
Funciile de activare ale neuronilor vor fi funcii de tip sigmoidal. Cel mai popular
model de funcie sigmoidal utilizat n calculul neuronal o reprezint funcia o( ) x
e
x
=
+

1
1
.
n general, o funcie o: R [0,1] se numete funcie sigmoidal dac satisface urmtoarea
definiie:

Def.7.2: Funcia o: R [0,1] se numete funcie sigmoidal dac satisface urmtoarele
proprieti:
(S1) Exist limitele ( ) t x
x
+

= limo i ( ) t x
x


= limo , iar t
+
= t
-
.
(S2) o este derivabil i exist ceR astfel nct o'(c) = 0.

Def.7.3: O funcie se va numi funcie de tip PMS(o) dac este o combinaie liniar finit de
compuneri ale unor transformri afine a mulimii numerelor reale cu o funcie sigmoidal o,
adic funcii de forma:

( ) R e +

=
) 0 ( ) 1 ( ) 2 (
1
) 0 ( ) 1 ( ) 2 (
, , ,
i i i
k
i
i i i
w w w w x w w o (7.1)

Def.7.4: Fie dat funcia f: I
n
R. Funcia e
f
: (0,) R se va numi modulul de continuitate
al funciei f dac

( ) ( ) ( ) ( )
e o
o
f n n n n
n
i i
f x x x f y y y x x x y y y I
x y i n
( ) sup{ , ,..., , ,..., , , ,..., , , ,...,
, , , ,..., }
= e
< =
1 2 1 2 1 2 1 2
12
(7.2)


VII.1.2. Teorema fundamental


La cel de-al II-lea Congres Internaional de matematic de la Paris din anul 1990,
Hilbert, n faimoasa sa lucrare "Matematische Probleme", a enunat o list de 23 de probleme,
pe care a considerat-o ca fiind de o importan deosebit pentru dezvoltarea ulterioar a
matematicii. Problema a-13-a, formulat ca o ipotez concret minor, implic aflarea
soluiilor unor ecuaii polinomiale: pot fi rdcinile unei ecuaii algebrice polinomiale
exprimate ca radicali, sume i compuneri de funcii de o singur variabil? Hilbert a emis
ipoteza c rdcinile ecuaiei x
7
+ ax
3
+ bx
2
+ cx + 1 = 0 , ca i funcii de coeficienii a, b, c,
nu pot fi reprezentate ca sume i produse de funcii de una sau chiar de dou variabile.
Aceast ipotez a fost contrazis de Arnold [10]. Mai mult chiar, Kolmogorov [118] a enunat
teorem general de reprezentare, afirmnd c orice funcie continu f :I
n
R, n > 2 poate fi
reprezentat sub forma:


( ) ( )
f x x x x
n q pq p
p
n
q
n
1 2
1 1
2 1
, ,..., =
|
\

|
.
|
= =
+

| (7.3)

unde: |
q
, q = 1, 2, ..., 2n+1 sunt funcii continue de o singur variabil, fiind dependente de
funcia f.
175

pq
, p = 1, 2, ..., n, q = 1, 2, ..., 2n+1 sunt funcii continue de o singur variabil, fiind
independente de funcia f.

Putem formula acum teoremele fundamentale de aproximare derivate din teorema de
reprezentare a lui Kolmogorov [124]:

Teorema 7.1: Fie neN, n > 2, o : R [0,1] o funcie sigmoidal, f e C(I
n
), c e R
+
. Atunci
exist keN i funciile |
q
,
pq
de tip PMS(o) astfel nct:


( ) ( ) ( )( ) f x x x x x x x I
n q pq p
p
n
q
n
n
n
1 2
1 1
2 1
1 2
, ,..., , , ,...,
|
\

|
.
|
< e
= =
+

| c (7.4)

Construcia lui Kolmogorov este suficient de complicat pentru construcia funciilor
de tip PMS(o), de aceea conform cu [124], vom enuna o teorem fundamental aplicabil
reelelor neuronale:

Teorema 7.2: Fie n e N, n > 2, o : R [0,1] o funcie de tip sigmoidal, f e C([0,1]) i c > 0.
Atunci pentru orice m e N astfel nct m > 2n + 1 i
n
m n
k
f
+ <
c
, iar
e
f
m
k
m n
m n
1
2 3
|
\

|
.
|
<

, k fiind o constant real pozitiv, funcia f poate fi aproximat cu


precizia c cu ajutorul unui PMS ce are dou straturi ascunse, astfel:
- nm(m + 1) neuroni n primul strat ascuns;
- m
2
(m + 1)
n
neuroni n cel de-al doilea strat ascuns, avnd o funcie de activare o
pentru care toate triile sinaptice - cu excepia celor ce leag ultimul strat ascuns de neuronul
de ieire - i termenii Bias [68] care sunt aceeai pentru toate funciile g care satisfac condiia
|| g || s || f || i e
g
s e
g
.

Obs.7.1: n teorema de mai sus prin || || s-a notat norma supremum, definit astfel

|| f || = sup {|f(x)| , x e X} (7.5)

Teorema de mai sus are mai mult un caracter de existen i nu unul practic, garantnd
posibilitatea construciei unui PMS cu dou straturi ascunse, avnd trii sinaptice universale,
cu excepia celor care unesc al doilea strat ascuns de neuronul de ieire, care sunt dependente
de funcia de aproximat.


VII.1.3. Demonstraii


Vom ncerca s demonstrm cele dou teoreme fundamentale de mai sus, folosindu-ne
de o serie de rezultate enunate i demonstrate n [60], [124]. Pentru nceput vom enuna
urmtoarea Lem ajuttoare:

Lema 7.1: Fie o: R [0,1] o funcie de tip sigmoidal i [a,b] c R un interval real nchis.
Atunci mulimea funciilor:

176
( )
)
`

e + =

=
R R
i i i
k
i
i i i
u v w u x v w x f b a f , , , ) ( ] , [ :
1
o (7.6)
este dens n mulimea C([a , b]).

Demonstraie: Din teorema lui Kolmogorov (7.3) avem:


( ) ( )
f x x x x
n q pq p
p
n
q
n
1 2
1 1
2 1
, ,..., =
|
\

|
.
|
= =
+

|

S alegem intervalul real nchis [a , b] _ R astfel nct:

pq
(I
n
) _ [a , b] oricare ar fi p = 1, 2 ,..., n i q = 1, 2, ..., 2n+1
Conform cu Lema 7.1 pentru orice q = 1, 2, ..., 2n+1 exist o funcie g
q
e PMS(o) asftel
nct:
| g
q
(x) - |
q
(x) | < c/(2n(2n+1)), oricare ar fi x e [a , b]
Deoarece g
q
sunt funcii uniform continue, exist un numr real pozitiv o astfel nct:
| g
q
(x) - g
q
(y) | < c/(2n(2n+1)), oricare ar fi x, y e [a,b] cu |x - y| < o
De asemenea, pentru orice p = 1, 2, ..., n i q = 1,2, ..., 2n+1 exist o funcie h
pq
e PMS(o)
astfel nct:
| h
pq
(x) -
pq
(y) | < o, oricare ar fi x e [0,1]
Atunci pentru orice (x
1
,x
2
,...,x
n
) e I
n
avem satisfcut condiia:

( ) ( ) g h x f x x x
q pq p
p
n
q
n
n
= =
+

|
\

|
.
|
<
1 1
2 1
1 2
, ,..., c

Lema 7.2 : Fie o : R [0,1] o funcie de tip sigmoidal, c o constant strict pozitiv, k e N,
x
1
< y
1
< x
2
< y
2
< ... < x
k
< y
k
numere reale i g: {1,2, ..., k} R o funcie oarecare. Atunci
exist funcia | e PMS(o) de forma:
( ) R e + =

=
i i i
k
i
i i i
u v w u x v w x , , , ) (
1
o | (7.7)
astfel nct: | |(x) - g(j) | < c, oricare ar fi x e [x
j
, y
j
] , j = 1, 2, ..., k i ||||| s max ( )
1s s
+
j k
g j c .

Demonstraie: Fie y
0
e R, i s alegem funcia g astfel nct g(0) = 0. S notm cu: M =
max ( )
1s s j k
g j .
Deoarece funcia o : R [0,1] este o funcie de tip sigmoidal, exist un numr real z e R
astfel nct:
0 < o(x) < c/4 Mk oricare ar fi x < z i
1 - c/4 Mk < o(x) < 1 oricare ar fi x > z
Pentru fiecare i = 1, 2, ..., k fie v
i
x + u
i
transformarea afin real ce transform n mod unic
intervalul [y
i-1
, x
i
] n intervalul [-z, z].
S mai notm cu w
i
= g(i) - g(i -1).
Atunci pentru fiecare x e [x
i
, y
i
] i pentru fiecare j = 1, 2, ..., k vom avea:
( ) ( ) ( )
( ) ( ) ( )
( ) ( )
w u x v g j w u x v g j w u x v
g i u x v u x v g j u x v
w u x v Mj Mk M k j Mk
i i i
i
k
i i i
i
j
i i i
i j
k
i
j
i i i i j j
i i i
i j
k
o o o
o o o
o c c c
+ s + + + s
s + + + + +
+ + s + s
= = = +
=

+ + +
= +

( ) ( )
( ) ( )
/ /
1 1 1
1
1
1 1 1
1
1
2 2
(7.8)
177

Bazndu-ne pe Lema de mai sus vom ncerca s demonstrm Teorema 7.2, care
reprezint o teorem fundamental a calculului neuronal.


Demonstraia teoremei 7.2:

Folosindu-ne de Lema 7.2 construim urmtoarea familie de mulimi de funcii de tip
PMS(o): { } N e i
q
i
_ , q = 1, 2, ..., m.
Pentru fiecare ie N i pentru fiecare q = 1, 2, ..., m definim o familie de subintervale
ale intervalului dat [0,1], considernd acele subintervale pe care valorile date sunt aproximate
de funciile _
i
q
astfel:
I
j
m
q
m
j
m
q
m
j m
i
q
i i i i
i
=

+ +

(
=


`
)
+ +
1 1
01 01
1 1
, [ , ] , , ....,
De asemenea, definim urmtoarele funcii:
{ }
i
q
i
i q
i
m
j
j g m g = ) ( , ,..., 1 , 0 : R
S alegem urmtoarele numere reale w
pq
, p = 1, 2, ..., n, q = 1, 2, ..., m pe care le vom
numi ntreg-independentedac satisfac condiia:
w z
pq p
p
k
=
=

0
1
, oricare ar fi z
1
,z
2
,...,z
k
e Z (7.9)
Cu ajutorul lor definim funciile
q
: I
n
R astfel:

( )

q
n pq p
p
n
x x x w x
1 2
1
, ,..., =
=

(7.10)
Mai facem urmtoarele notaii:

- v
i
precizia cu care valorile g j
i
q
( ) aparinnd intervalelor A I
ij
q
i
j
e sunt aproximate
de ctre funcii de tip PMS(o);

- D
i
= { j / m
i
| j = 0,1,...,m
i
}, i e N;

Deoarece
q
(D
i
) este finit pt. orice ie N i orice q = 1, 2, ..., m exist un numr real q
i

care s aib proprietatea c distana dintre dou valori
q
(D
i
) s fie mai mare dect 2q
i
, pentru
orice q = 1, 2, ..., m.
Funciile
q

sunt uniform continue, deci exist v
i
> 0 cu proprietatea c dac
(x
1
, x
2
, ..., x
n
), (y
1
,y
2
,...,y
n
) e I
n
, i | x
p
- y
p
| < v
i
, p = 1, 2, ..., n atunci:

|
q
(x
1
,x
2
,...,x
n
) -
p
(y
1
,y
2
,...,y
n
)| < v
i

Conform cu Lema 7.2 pentru orice q = 1, 2, ..., m exist o funcie _
i
q
de tip PMS(o)
cu proprietatea c:

( ) _
i
q
i i ij
q i
x
j
m
v x A j m ( ) , , , ,..., < e = 01

Construim m familii de funcii:
( ) ( )

e = e

=
n
p
n
n p
q
i pq n
q
i
n q
i
I x x x w x x i I
1
1 1
,..., ), ( ,..., , : _ N R

178
i fie B
i
q
familia paralelipipedelor n-dimensionale coninute n I
n
i cu vrfurile n mulimea
I
i
q
. Notm |( ) , , B B D B B
i
n
i
q
= e care este o mulime format dintr-un singur punct oricare
ar fi q = 1, 2, ..., m. Atunci:


( ) ( )
| |
| q | q
i
q
i
q
i i
q
i
B B B ( ) ( ) , ( ) _ +

Deoarece numerele reale w
pq
, p = 1,2,...,n, q = 1,2,...,m sunt ntreg-independente (7.9)
avem:


( )

i
q
i
q
i
q
B B B B B ( ) ( ) , ,
1 2 1 2
= C e

Fie funcia f e C(I
n
). Deoarece m > 2n + 1, exist o > 0 astfel nct:

n / (m-n) + o(1 + n / 2 (n-m)) < 1

n continuare, vom construi prin inducie, folosind Lema 7.2, o familie de funcii de tip
PMS(o) {|
i
| i e N} i un ir cresctor de numere naturale {k
i
| i e N} astfel nct:

|| |
i
|| s o
i-1
|| f || (7.11)

i:
f f
j k
j
q
j
i
q
m
i
s
= =

| o
1 1
(7.12)

S fixm urmtoarele valori: |
0
0 (funcia nul), i k
0
= 0. S presupunem c pentru
orice j < i, |
j
i k
j
sunt definite. Facem urmtoarea notaie:

h f
i j k
j
q
j
i
q
m
=
=

=

|
1
1
1


Deoarece I
n
este o mulime compact i h
i
sunt funcii uniform continue, atunci exist
k
i
e N cu k
i
> k
i-1
astfel nct diagonalele paralelipipedelor n-dimensionale
k
j
q
B ( ) sunt mai
mici dect o|| h
i
|| / 2, pentru orice q = 1, 2, ..., m.
Pe baza Lemei 7.2 exist |
i
de tip PMS(o), astfel nct :
() q = 1,2,...,m, () B B
k
j
q
e , () ( ) ( )
| |
x B B
k
q
k k
q
k
j j j j
e + | q | q ( ) , ( ) s avem:
| |
i
- h
i
(|(B)) / (m - n) | < o || h
i
|| / 2 (m - n) i
|| |
i
|| < || h
i
|| / 2 (m - n) + o || h
i
|| / 2 (m - n)

Deoarece, || h
i
|| s o
i-1
|| f || rezult c avem || |
i
|| s o
i-1
|| f ||, deci relaia (7.11) este
adevrat.
Pentru a verifica relaia (7.12) este suficient s artm c:

h h f h
i i k
j
q
q
m
i j k
j
q
j
i
q
m
i i k
j
q
q
m
s =
= = = =

| o | |
1 1 1 1
deoarece

iar presupunerea induciei ne garanteaz c || h
i
|| s o
i-1
|| f ||.
179
Oricare ar fi (x
1
,x
2
,...,x
n
) e I
n
exist cel puin m - n valori distincte ale lui q pentru care
exist un paralelipiped n-dimensional B B
q
k
j
q
e cu (x
1
,x
2
,...,x
n
) e B
q
.
Dac pentru q = 1, 2, ..., m - n, (x
1
,x
2
,...,x
n
) e B
q
, B B
q
k
j
q
e atunci avem:

( ) ( ) ( ) ( ) ( )
| | o
i k
j
q
n i
q
i
x x h B m n h m n
1
2 , ..., / / < i


( ) ( ) ( )
h x x h B h
i n i
q
i 1
2 ,..., / < | o

Din relaiile de mai sus avem:


( ) ( ) ( )
( ) h x x x x h x x h B m n h
i n i k
q
n
q
m n
i n
q
q
m n
i
i
( ,..., ) ( ,..., ) ( ,..., ) /
1 1
1
1
1
== s
=


| | o

Pentru q = m-n+1, ..., m, tim c:

( ) ( ) ( )
| | o
i k
i
q
n i i i
x x h m n h m n
1
2 ,..., / / s s +

de unde se obine:


( ) ( )
( ) ( )
h x x x x h
n m n n m n h h
n i k
i
q
n
q
m
i i k
i
q
q
m n
i k
i
q
q m n
m
i i
1 1
1 1 1
2
, ... , , ... ,
/ / ( )
s + s
s + + =
= =

= +

| | |
o o o


Pentru c > 0 s considerm i e N astfel nct o
i
|| f || < c. Pentru fiecare j = 1, 2, ..., i s
notm _
pqj pq k
i
q
w = . Deoarece ) ( ) ( o o _ PMS PMS e e
pqj
q
k
i
. Obinem:

( ) ( ) ( ) ( ) f x x x x x I
n j pqj p
p
n
j
i
q
m
n
n
1
1 1 1
1
, ... , , ... ,
|
\

|
.
|
< e
= = =

| c

Din analiza modului de construcie a demonstraiei Teoremei 7.2 putem s
determinm o estimare a numrului de neuroni din straturile ascunse:

S considerm funciile _
1
q
i familiile de paralelipipede n-dimensionale B
q
1
, q = 1, 2,
..., m, definite ca n construcia teoremei de mai sus. Funciile _
1
q
sunt de forma:


( )
a b x c
qi qi qi
i
m
o +
=
+

1
1


Ca i mai sus, construim o funcie |
1
ce are valori prescrise pe intervale ce conin
imaginile paralelipipedelor n-dimensionale B
q
1
prin funciile
1
q
. Existnd m familii i fiecare
familie coninnd (m + 1)
n
paralelipipede n-dimensionale, rezult c funcia |
1
este de forma:


( )
d v y u
j j j
j
m
n
o +
=
+

1
1 ( )


180
Atunci funcia f poate fi aproximat cu precizia c de funcia:


( ) ( )
| _ o o
1 1
1 1
1
1 1
1
1 1
w x d v w a b x c u
pq
q
p
p
n
j j pq qi qi p qi
i
m
p
n
j
j
m m
n
q
m
q
m
= =
+
= =
+
= =

|
\

|
.
|
= +
|
\

|
.
|
+
|
\

|
.
|
|
\

|
.
|
( )



VI I .2. Teorema lui Stone-Weierstrass i perceptronul multistrat


VII.2.1. Introducere


n acest subcapitol vom folosi Teorema lui Stone-Weierstrass [111] i funcia cosinus
sigmoidal a lui Gallant i White [74] pentru a stabili faptul c PMS cu un singur strat ascuns,
ce au ca funcii de activare funcii arbitrare de tip sigmoidal, pot aproxima orice funcie
msurabil Borel, cu orice precizie dorit, condiia fiind ca PMS s conin un numr
nelimitat de neuroni n stratul ascuns [103]. Aceste rezultate stabilesc capacitatea reelelor
neuronale de tip PMS de a fi aproximatori universali. Aplicarea practic a considerentelor
teoretice ce vor fi prezentate n continuare, poate fi uneori nereuit datorit unei faze de
nvare nepotrivit, datorit unui numr necorespunztor de neuroni n stratul ascuns sau a
prezenei unei reguli stohastice, i nu determinist ntre datele de intrare i cele de ieire. De
aceea, n cadrul acestui subcapitol nu vom aborda problema practic a numrului de neuroni
necesari pentru a aproxima o funcie cu o anumit precizie [67].


VII.2.2. Notaii i definiii


Fie F = {f | f: E R} o familie de funcii reale.

Def.7.5: Familia de funcii F se numete algebr dac F este nchis relativ la operaiile de
adunare, nmulire i nmulire cu un scalar.

Def.7.6: Familia de funcii F se numete separabil pe E dac oricare ar fi x, y e E, cu x = y,
exist o funcie f e F astfel nct f (x) = f (y).

Def.7.7: Familia de funcii F se numete nenul dac oricare ar fi x e E, exist o funcie f e F
astfel nct f (x) = 0.

Teorema Stone - Weierstrass: Fie F o algebr de funcii reale definite pe o mulime
compact K. Dac F este separabil pe K (Definiia 7.6) i nenul pe K (Definiia 7.7), atunci
nchiderea uniform B a mulimii F const din mulimea tuturor funciilor continue pe K
(altfel spus F este
K
- dens relativ la spaiul funciilor continue pe K).

Def.7.8: Mulimea A
n
= {A : R
n
R | A(x) = wx + b, w, x e R
n
, b e R, n e N} se numete
mulimea transformrilor afine de la R
n
la R.

Obs.7.2: Interpretarea definiiei de mai sus, n contextul reelelor neuronale este urmtoarea:
181
|
f(x)
w
- x e R
n
reprezint vectorul de intrare, prezentat la stratul de intrare al reelei
neuronale;
- w e R
n
reprezint vectorul triilor sinaptice dintre stratul de intrare i stratul
ascuns al reelei neuronale.
- b e R reprezint termenul Bias;
- wx reprezint produsul scalar al celor doi vectori n-dimensionali w i x.

Def.7.9: Pentru orice funcie msurabil (Borel) G : R
n
R, n e N, vom construi urmtoarea
familie de funcii:

( )

)
`

e e e e = =
=
n
m
i
n
i i
n
i i
n
m n A A A G f f G
1
, , , , , ) ( ) ( : ) ( N R R x x x R R | |
(7.13)

Obs.7.3: Orice funcia f e E
n
(G) corespunde unui PMS de forma celui din figura de mai de
jos:













Fig.7.1: O reea neuronal de tip PMS avnd un singur strat ascuns, compus din:
- un strat de intrare cu n neuroni de intrare;
- un strat ascuns cu mneuroni avnd ca funcie de activare funcia sigmoidal G;
- un strat de ieire avnd un singur neuron de ieire;
- stratul de intrare este conectat cu stratul ascuns prin intermediul triilor sinaptice w
i
e
R
n
;
- statul ascuns este conectat cu stratul de ieire prin intermediul triilor sinaptice | e R.
Obs.7.4: Conform cu cele prezentate n [68], modul de operare al PMS cu o arhitectur ca cea
al reelei neuronale din Fig.7.1 de mai sus, este:
- se aplic la stratul de intrare vectorul de intrare x = (x
1
,x
2
,...,x
n
);
- se calculeaz pentru fiecare neuron j din stratul ascuns valoarea de integrare:
I w x w b
j ji i j
i
n
= + = +
=
0
1
wx
- se aplic funcia de activare (transfer) sigmoidal G, obinndu-se valoarea de
ieire al fiecrui neuron din stratul ascuns j:
y G I G b
j j
= = + ( ) ( ) wx

G
G
G
+

x
1

x
2

x
n


182
- se propag valorile generate de neuronii din stratul ascuns y
j
ctre stratul de ieire
(compus dintr-un singur neuron), obinndu-se valoarea de ieire al PMS:
y y G I
j j j j
j
m
j
m
= =
= =

| | ( )
1 1
(7.14)

Evident, orice funcie f e E
n
(G) corespunde unui PMS cu un strat ascuns de tipul celui
prezentat n Fig.7.1 de mai sus.

n Definiia 7.2 am vzut modul de definire al unei funcii sigmoidale. Vom prezenta
n cele ce urmeaz o serie de funcii sigmoidale [68] folosite n tehnica calculului neuronal, ca
i funcii de activare al neuronilor din stratul ascuns.

Exemplul 4.1: Vom folosi n cele ce urmeaz funcia indicator definit astfel:
{ }

e
e
=
A x
A x
x
A A
, 1
, 0
) ( 1 , 1 , 0 : 1 R
(i). Funcia treapt (Heaviside):
{ }
o
1 0
1 ( ) x
x
=
>
(7.15)
(ii). Funcia ramp:
{ } { }
o
2 0 1 1
1 1 ( ) x x
x x
= +
s s >
(7.16)
(iii). Funcia cosinus sigmoidal:


( )
{ } { }
o
t
t t t 3 2 2 2
1 3 2
2
1 1 ( )
cos /
/ / /
x
x
x x
=
+ +
+
s s >
(7.17)

Definiia 7.10: Pentru orice funcie msurabil G : R
n
R, n e N, vom construi urmtoarea
familie de funcii:

( )
[ [

)

e e e e = =
= =
m
i
i
n
ij i
n
l
j
ij i
n
n
m n l A A A G f f G
i
1 1
, , , , , , ) ( ) ( : ) ( N R R x x x R R | |

(7.18)


S facem urmtoarele notaii:

C
n
= { f: R
n
R | f funcie continu }
M
n
= { f: R
n
R | f funcie msurabil Borel }

Obs.7.4: (i) Oricare ar fi funcia G msurabil Borel rezult c:

E
n
(G) e M
n
, EH
n
(G) e M
n


(ii). Oricare ar fi funcia G continu rezult c:

E
n
(G) e C
n
, EH
n
(G) e C
n


Def.7.10: Fie S o submulime a spaiului metric (X, ). Vom spune c S este - dens n
submulimea T, dac pentru orice c > 0 i pentru orice t e T, exist un element s e S astfel
nct (s, t) < c.
183

Obs.7.5: Definiia de mai sus arat c un element a mulimii S poate aproxima cu orice
precizie dorit un element al mulimii T.

Def.7.11: Submulimea S _ C
n
se numete uniform dens pe un compact n C
n
, dac pentru
orice submulime compact K c R
n
, S este
K
- dens n C
n
, unde:


K
(f, g) =sup
x e K
| f(x) - g(x) | , f, g e C
n
.

Def.7.12: Un ir de funcii {f
n
} converge uniform pe un compact la funcia f dac pentru orice
compact K c R
n
avem:

( )
lim ,
n
K n
f f

= 0


VII.2.3. Teoreme fundamentale i demonstraii


Conform cu lucrarea [103], suntem n stare s enunm urmtoarea teorem:

Teorema 7.4 : Fie G: R
n
R o funcie continu i neconstant. Atunci mulimea EH
n
(G)
este uniform dens pe un compact n C
n
.

Demonstraie: Pentru demonstraia acestei teoreme ne vom folosi de Teorema lui Stone -
Weierstass.
Fie K c R
n
o mulime compact. Este banal de artat c mulimea EH
n
(G) este o
algebr pe K. Vom art n continuare faptul c mulimea EH
n
(G) este separabil pe K
(Definiia 7.6) i nenul pe K (Definiia 7.7):
- separabil: dac x, y e K cu x = y atunci exist A e A
n
astfel nct G(A(x)) = G(A(y)).
Pentru a dovedi aceast afirmaie este suficient s alegem dou numere reale a, b e R, a =
b astfel nct G(a) = G(b).
Alegem funcia A e A
n
astfel nct s satisfac relaia: A(x) = a i A(y) = b. Atunci:
G(A(x)) = G(a) = G(b) = (A(y)) i prin urmare mulimea EH
n
(G) este separabil pe K n
sensul Definiiei 7.6.
- nenul: pentru ca s avem satisfcut condiia de ne-nulitate n sensul Definiiei 7.7
trebuie s artm c exist o funcie G(A()) constant nenul. Pentru aceasta fie b e R un
numr real cu proprietatea c G(b) = 0. S alegem funcia A e A
n
dat prin relaia:
A(x) = 0 x + b.
Atunci oricare ar fi x e K avem: G(A(x)) = G(b) = 0.
Aplicnd Teorema lui Stone-Weierstrass rezult c mulimea EH
n
(G) este
K
- dens
n spaiul funciilor reale continue pe K, adic ceea ce trebuia demonstrat.

Obs.7.6: (i).Teorema de mai sus arat faptul c reelele neuronale de tip EH sunt capabile de
a aproxima cu orice precizie dorit orice funcie continu pe o mulime compact.
Condiia ca funcia s fie definit pe un compact se realizeaz relativ simplu, cci
datele de intrare ale unei reele neuronale sunt ntotdeauna mrginite.
(ii). De notat faptul c funcia de activare G a neuronilor din stratul ascuns poate fi
orice funcie continu neconstant, nefiind obligatorie condiia ca funcia de activare
s fie o funcie de tip sigmoidal. Evident, majoritatea funciilor de activare de tip
184
sigmoidal folosite n practic satisfac condiia de continuitate, deci sunt o alegere
bun.
(iii). Reelele neuronale de tip EH nu au dect o importan teoretic, nu sunt
utilizate n aplicaiile practice. De aceea, aplicarea rezultatelor obinute pentru acest
tip de reele neuronale poate fi folosit n practic considernd cazul particular al
reelelor neuronale tip EH cu l
i
=1 pentru orice i, obinndu-se astfel reele neuronale
de tip E care sunt exact reele neuronale de tip PMS cu un singur strat ascuns.

Importantul rezultat formulat mai sus sub forma Teoremei 7.4 a fost generalizat de
ctre Hornik, K., Stinchcombe, M., White, H. [103] care enun i demonstreaz urmtoarele
teoreme:

Teorema 7.5: Pentru orice funcie continu neconstant G, orice numr natural n e N i orice
msur pe R
n
, mulimea EH
n
(G) este
K
- dens n spaiul funciilor reale msurabile M
n
.

Teorema de nai sus, a crei demonstraie se gsete n [103], stabilete faptul c o
reea neuronal de tip EH poate aproxima orice funcie msurabil cu orice precizie dorit.
Capacitatea de aproximare a reelei neuronale de tip EH nu este dependent de funcia de
activare G a neuronilor din stratul ascuns, nu este dependent de dimensionalitatea spaiului
de intrare n i nu este dependent de spaiul de intrare a crui caracteristic este dat de
msura .

Din toate cele menionate mai sus putem trage concluzia fireasc: reelele neuronale
de tip EH sunt aproximatori universali.

Condiia de continuitate a funciei de activare G face ca rezultatele enunate pn
acum s nu poat fi aplicate reelelor neuronale de tip PMS care au ca funcie de activare
funcia treapt (Heaviside) o
1
. Dup cum am vzut ns n [66], neuronii biologici au un mod
de funcionare care justific folosirea funciei treapt. Neuronul sumeaz semnalele provenite
din arborele dendritic, emind un semnal axonic cnd suma semnalelor dendritice a depit
un prag, numit prag sau nivel de activare. Chiar dac studiul nostru nu este foarte preocupat
de semnificaia biologic, nu trebuie s uitm faptul c calculul neuronal are ca surs de
inspiraie modelul biologic al creierului uman, prin urmare trebuie s avem n vedere i aceste
aspecte biologice inspiratoare ale calculului neuronal.
De aceea, vom reformula rezultatele obinute pn acum pentru funcii de activare de
tip sigmoidal, deci i pentru funcia treapt, n general condiia de continuitate a funciei de
activare nemaifiind necesar.

Teorema 4.6: Pentru orice funcie de activare de tip sigmoidal o, orice numr natural n e N i
orice msur pe R
n
, mulimea EH
n
(o) este uniform dens pe un compact n C
n
i
K
-
dens n spaiul funciilor reale msurabile M
n
.

Evident, conform Observaiei 7.5 (iii), toate teoremele enunate relativ la cazul mai
general al reelelor neuronale de tip EH se pot aplica relativ la cazul particular al reelelor
neuronale de tip E care sunt echivalente cu PMS avnd un singur strat ascuns.





185

VI I .3. Aplicaii ale teoremei lui Stone - Weierstrass la reele
neuronale

VII.3.1. Introducere


n acest subcapitol ne vom concentra atenia asupra utilizrii Teoremei lui Stone-
Weierstrass n construirea unor arhitecturi de reele neuronale care s satisfac condiiile
teoremei amintite, i s satisfac proprietatea de aproximant universal. Implicnd
Teorema Stone-Weierstrass n construcia reelelor neuronale, vom ncerca s artm c
acestea sunt capabile de a calcula anumite expresii polinomiale. Pentru aceasta, ne vom baza
pe principiul enunat n lucrarea [32]: dac avem dou reele neuronale care a cror valori de
ieire coincid cu valorile generate de funciile date f i g, atunci combinnd cele dou reele
neuronale, vom obine o reea neuronal mai mare care va genera valori de ieire
corespunznd unei expresii polinomiale n f i g.
Vom da o formulare echivalent [111], [171] pentru Teorema lui Stone-Weierstrass
cu cea enunat n subcapitolul precedent, diferena fiind doar c n aceast formulare
Teorema poate fi mai uor aplicat n aplicaii practice.

Teorema Stone-Weierstass: Fie D _ R
n
un domeniu compact, i fie familia de funcii
F = { f : D R
n
| f funcie continue } care satisface urmtoarele condiii:
(i). Funcia identic: Funcia identic 1(x) = x, x e D aparine mulimii F.
(ii). Separabilitate: Oricare ar fi x
1
, x
2
e D, x
1
= x
2
, exist f e F astfel nct
f (x
1
) = f (x
2
).
(iii). nchidere algebric: Dac f, g e F, atunci oricare ar fi a, b e R avem fg e F i
af + bg e F.
Atunci F este dens n mulimea C(D) a funciilor continue pe D, adic oricare ar fi c > 0 i
oricare ar fi g e F, atunci exist o funcie fe F astfel nct | f (x) - g (x) | < c, oricare ar fi
x e D.

VII.3.2. Exemple de reele neuronale ce satisfac teorema lui
Stone - Weierstrass


n cele ce urmeaz ne va interesa studiul reelelor neuronale de tip PMS cu un singur
strat ascuns
10
, avnd o arhitectur de reea neuronal ca cea din Fig. 7.1.
S analizm trsturile generale ale unei astfel de reele neuronale din punct de vedere
al aplicrii Teoremei lui Stone - Weierstrass:

- Familia de funcii care corespunde acestui tip de reea neuronal este conform Obs.7.4:


10
Am demonstrat n subcapitolul anterior c un PMS cu un singur strat ascuns, avnd un numr nelimitat de neuroni n
stratul ascuns are proprietatea de aproximant universal. De aceea, purtm discuia relativ la un PMS cu un singur strat
ascuns fr a restrnge generalitatea.
186
( )

e e
|
|
.
|

\
|
+ = _ =

= =
N
i
j ij i
n
j
j j ij i n
n
N n b w b x w G x x x f D f
1 0
2 1
, , , , , ,..., , : N R R R | | F
(7.19)

(i). Funcia identic: conform Teoremei lui Stone - Weierstrass va trebui s artm c
funcia identic aparine mulimii F:

- s alegem funcia de activare a neuronilor din stratul ascuns de tip sigmoidal
treapt (7.15):
- s setm triile sinaptice ale conexiunilor dintre stratul de intrare i stratul ascuns
egale cu zero: w
ij
= 0.
- s setm triile sinaptice ale conexiunilor dintre stratul ascuns i stratul de ieire
astfel: |
i
= 1, i e {1,2,...,N} i |
j
= 0, j e {1,2,...,N}, j = i.

Atunci, oricare ar fi x = (x
1
,x
2
,...,x
n
) e D avem:


( ) f x x G x G
n i j
j
n
i
N
i
i
N
i
i
N
( , ... , )
1
0 0 0 0
0 0 0 1 1 = +
|
\

|
.
|
= = =
= = = =

| | |

Astfel, am demonstrat faptul c reelele neuronale de tip PMS satisfac condiia de funcie
identic a Teoremei lui Stone - Weierstrass.

(ii). Separabilitate: trebuie s artm c reelele neuronale de tip PMS (7.19) au proprietatea
de a lua valori distincte pentru date de intrare distincte. Pentru aceasta este suficient ca
funcia calculat de ctre reeaua neuronal s fie strict monoton. Deoarece funciile de
activare ale neuronilor ascuni, folosite n practic, sunt de tip sigmoidal i acestea sunt
toate strict monotone, vom avea:

oricare ar fi x = (x
1
,x
2
,...,x
n
) e D i y = (x
1
,x
2
,...,x
n
) e D cu x = y avem:

( ) ( ) x y x y x y x y = = = =
= =

G G G G f f
i i
i
N
i
N
( ) ( ) ( ) ( ) | |
1 1


(iii). nchidere algebric - aditiv:

- fie f e F, atunci :

( )

= =
e e
|
|
.
|

\
|
+ =
1 1
1
1 1
) 1 ( ) 1 (
0
) 1 ( ) 1 (
2 1
, , , , , ,..., ,
N
i
i ij i
n
j
i j ij i n
N n b w b x w G x x x f N R | |

- fie ge F, atunci :
( )

= =
e e
|
|
.
|

\
|
+ =
2 2
1
2 2
) 2 ( ) 2 (
0
) 2 ( ) 2 (
2 1
, , , , , ,..., ,
N
i
i ij i
n
j
i j ij i n
N n b w b x w G x x x g N R
- fie a,b e R. Atunci, pentru a arta c af + bg e F, vom face construi urmtoarea
reea neuronal:



187








Fig. 7.2: Arhitectura unei reele neuronale tip PMS care demonstreaz faptul c dac
f, g e F, atunci i af + bg e F, adic satisfacerea condiiei de nchidere algebric aditiv.

(iii). nchidere algebric - multiplicativ:

- trebuie s mai artm c putem modela cu ajutorul unei reele neuronale de tip PMS
i produsul a dou funcii fg pentru a putea trage concluzia c putem aplica Teorema
lui Stone - Weierstrass acelei familii de reele neuronale. Datorit faptului c neuronul
din stratul de ieire are o funcie de activare liniar (funcia identic), va trebui s
putem reprezenta produsul fg ca o sum de funcii. Astfel, punctul crucial al aplicrii
Teoremei lui Stone - Weierstrass la o familie de reele neuronale este de a gsi
funciile care transform produsele n sume.

n cele ce urmeaz vom studia o serie de reele neuronale care satisfac condiiile
Teoremei lui Stone - Weierstrass, reamintind nc o dat faptul c condiiile de (i) funcie
identic, (ii) separabilitatei (iii) nchidere algebric aditiv sunt satisfcute de toate reelele
neuronale de tip PMS, care constituie obiectul nostru de studiu.


VI I .3.2.1. Reele neuronale de tip exponenial


Evident, funcia exponenial este un candidat natural pentru funcia cutat ce
transform produsul n sum. Bazndu-ne pe relaia algebric:

e e e
x y x y
=
+
(7.20)

vom construi prima clas de reele neuronale ce satisfac Teorema lui Stone - Weierstrass.


Teorema 7.7: Fie A mulimea funciilor calculabile de reele neuronale de tip exponenial:
| | ( )

e e

= =

=

=
N
i
ij i
x w
i n
n
N n w e x x x f f
n
j
i ij
1
2 1
, , , , ,..., , 1 , 0 :
1
N R R | | A (7.21)
atunci mulimea A este dens n mulimea L
p
([0,1]
n
) unde 1 s p s .

Demonstraie:

Fie f i g e A. Atunci:
( )

=

e e

=
=
N
i
ij i
x w
i n
N n w e x x x f
n
j
j ij
1
2 1
, , , , ,..., ,
1
N R | |

+
b
a
f
g
x
af+bg
188
( )

=

e e

=
=
M
k
kj i
x w
k n
M n w e x x x g
n
j
j kj
1
2 1
, , , , ,..., ,
1
N R | |

Vom avea:


( ) ( )
kj ij lj k i l
NM
l
li l
x w
l n n
w w w iar
M N n w e x x x g x x x f
n
j
j lj
+ = =
e e

=

=

=
,
, , , , , ,..., , ,..., ,
1
2 1 2 1
1
| | |
| |
unde
N R


Atunci f g e A, deci A este dens n mulimea L
p
([0,1]
n
), unde 1 s p s .


VI I .3.2.2. Reele neuronale de tip Fourier


Reelele neuronale de tip Fourier au fost introduse pentru prima dat de Gallant i
White n lucrarea [74] pentru implementarea seriilor Fourier cu ajutorul reelelor neuronale.
Aceste serii Fourier satisfac Teorema lui Stone - Weierstrass, avnd la baz urmtoarea
identitate trigonometric ce transform produsul n sum:

cos ( a + b ) = cos a cos b - sin a sin b (7.22)

n [74], se introduce o form echivalent a seriilor Fourier, avnd la baz funcia
cosinus sigmoidal definit n Exemplul 7.1 (7.17), i scris n forma echivalent:


( )
cos ( )
,
cos
,
,
ig x
x
x
x
x
=
s
+
< <
>

0
1
2
1 2
2
1
2
0
1 0
t
(7.23)


Teorema 7.8: Fie B mulimea funciilor calculabile de reele neuronale de tip Fourier:

| | ( )

e e
|
|
.
|

\
|
+ = =

= =
N
i
ij j i
n
j
i j ij i n
n
N n w x w ig x x x f f
1 1
2 1
, , , , , cos ,..., , 1 , 0 : N R R u | u | B
(7.24)
atunci mulimea B este dens n mulimea L
p
([0,1]
n
), unde 1 s p s .

Demonstraie: Bazndu-ne pe identitatea (7.22) i pe forma pe care o are o funcie de tip
cosinus sigmoid, rezult imediat c dac f i g e B, atunci f g e B, deci B este dens n
mulimea L
p
([0,1]
n
), unde 1 s p s .


189
VI I .3.2.3. Reele neuronale de tip E[


Dup cum am vzut n Teorema 7.6 enunat mai nainte, reelele neuronale de tip E[
satisfac condiiile Teoremei lui Stone - Weierstrass, fapt dovedit pe baza unor complexe
rezultate din analiza real. De aceea, bazndu-ne pe ideile de mai sus, vom relua reelele
neuronale de tip E[ simplificnd demonstraia faptului c ele satisfac Teorema lui Stone -
Weierstrass.
Dup cum am vzut, este suficient s artm c produsul a dou funcii satisface
condiia de nchidere multiplicativ. Pentru aceasta ne vom baza pe urmtoarea identitate
algebric:


( )
x x e e e x
n m n x m x n m x n m
= = =
+ + ln ln ln
(7.25)


Teorema 7.9: Fie C mulimea funciilor calculabile de reele neuronale de tip E[:

| | ( )

e e = =
[
= =
N
i
ij i
n
j
w
j i n
n
N n w x x x x f f
ij
1 1
2 1
, , , , ,..., , 1 , 0 : N R R | | C (7.26)

atunci mulimea C este dens n mulimea L
p
([0,1]
n
), unde 1 s p s .


VI I .3.2.4. Reele neuronale de tip exponenial - generalizat

Reelele neuronale de tip exponenial - generalizat reprezint o generalizare a reelelor
neuronale de tip exponenial, la care baza o reprezint constanta lui Euler e. De data aceasta
baza funciei exponeniale poate fi orice funcie real. Acest tip de reea neuronal se obine
printr-o pre-procesare a datelor de intrare ce se prezint apoi unei reele neuronale de tip E[.
n acest fel, dac g reprezint funcia de pre-procesare a datelor de intrare, atunci stratul
ascuns al reelei neuronale de tip E[ va fi capabil de a calcula funcii polinomiale de forma
g x g x g x
n n
N
n
N
( ) ( ) ... ( )
1 2
1 2
.

Teorema 7.10: Fie D mulimea funciilor calculabile de reele neuronale de tip E[:

| | ( ) ( ) | | ( )

e e e = =
[
= =
N
i
ij i
w
n
j
j i n
n
N n w C g x g x x x f f
ij
1 1
2 1
, , , , 1 , 0 , ,..., , 1 , 0 : N R R | | D
(7.27)

atunci mulimea D este dens n mulimea L
p
([0,1]
n
), unde 1 s p s .



190
VI I .3.2.5. Reele neuronale de tip BP (BackPropagation)

Reelele neuronale de tip BP (BackPropagation), sunt de fapt reele neuronale de tip
PMS, cu unul sau mai multe straturi ascunse, avnd ca i funcie de activare a neuronilor din
stratul ascuns, funcia sigmoidal logistic:
o( ) x
e
x
=
+

1
1
(7.28)
iar ca algoritm de nvare, popularul algoritm BackPropagation, prezentat pe larg n IV.2.1.
Pentru a putea aplica acestui tip de reea neuronal Teorema lui Stone - Weierstrass, trebuie
s mai introducem urmtoarea relaie algebric:

1
1
1
1
1
1
1
1
1 2
1
1 2 1
2
2 1 2
+

+
=


+
+


+ w x w x
w
w w w x
w
w w w x
(7.29)
Pe baza relaiei algebrice (7.20) se combin reelele neuronale de tip exponenial cu
relaia (7.29), obinndu-se reelele neuronale de tip BP. Atunci putem enuna urmtoarea
teorem:

Teorema 7.11: Fie E mulimea funciilor calculabile de reele neuronale de tip BP:

| | ( )

e e
(
(


+ = =

=

=
N
i
ikj i
K
j
x w
i n
n
K N n w e x x x f f
n
j
j ikj
1
1
1
2 1
, , , , , 1 ,..., , 1 , 0 :
1
N R R | | E
(7.30)

atunci mulimea E este dens n mulimea L
p
([0,1]
n
), unde 1 s p s .


VI I .4. Proprieti fundamentale de aproximare ale reelelor
neuronale


VII.4.1. Noiuni introductive


Reeaua neuronal poate fi privit ca o lege de calcul ce genereaz m valori de ieire
atunci cnd calculul pornete de la n date de intrare. Cu alte cuvinte, o reea neuronal
implementeaz o familie de funcii definite pe R
n
cu valori n mulimea R
m
. Evident,
ntrebarea care o punem este ct de bine putem aproxima o astfel de funcie f : R
n
R
m
cu
ajutorul unei reele neuronale, dac presupunem c putem avea orici neuroni n straturile
ascunse.
Modul de msurare a preciziei aproximrii depinde de modul de msurare al
"apropierii" dintre dou funcii, care "apropiere" la rndul ei este dependent de problema
191
specific pe care dorim s o rezolvm. Dac, ntr-o aplicaie dat, interesul nostru este ca
reeaua neuronal s nvee la fel de bine toate datele de antrenament ce aparin unei mulimi
compacte X _ R
n
, atunci cea mai potrivit msur a "apropierii" o constituie distana uniform
dintre funcii:


,
sup ( ) ( )
K
x X
f x g x =
e
(7.31)

n alte aplicaii, privim datele de antrenament ca nite variabile aleatoare, interesndu-
ne performana medie, media fiind considerat n raport cu msura a spaiului de intrare R
n
,
unde ( R
n
) < . n acest caz, vom msura "apropierea" cu distana L
p
():


| |

p
p
R
p
f x g x d x
n ,
/
( ) ( ) ( ) =
}
1
(7.32)

unde 1 s p < , cazul p = 2 al abaterii medii ptratice fiind cel mai popular.

Ceea ce am reuit s artm pn acum este capacitatea reelelor neuronale de a fi
aproximatori universali, cu condiia ca funciile de activare ale neuronilor constitueni s
satisfac condiia de integrabilitate sau s fie funcii sigmoidale (vezi Def 7.1). n acest capitol
ne vom ocupa de relaxarea condiiilor pe care trebuie s le satisfac funcia de activare a
neuronilor pentru ca reeaua neuronal s pstreze capacitatea de aproximant universal.
Urmrind ideea prezentat de K. Hornik n [102], vom arta c dac funcia de
activarea neuronilor este mrginit i neconstant, atunci pentru o msur arbitrar a
spaiului de intrare, PMS poate aproxima orict de bine orice funcie ce aparine spaiului
L
p
(), dac "apropierea" este msurat de
p,
(7.32) i exist orici neuroni n stratul ascuns.
De asemenea, vom stabili faptul c dac funcia de activare este continu, mrginit i
neconstant, atunci pentru orice spaiu de intrare X _ R
n
atunci PMS poate aproxima orict
de bine orice funcie continu definit pe X, n raport cu distana
p,
(7.32), stratul ascuns
avnd orici neuroni n stratul ascuns.

Aceste afirmaii ne vor permite s admitem concluzia lui Hornik [102]:

"ceea ce asigur reelelor neuronale PMS proprietatea de a fi aproximatori
universali nu este dat de specificul funciei de activare a neuronilor ci mai
degrab de arhitectura intrinsec a reelei neuronale".


VII.4.2. Enunuri i rezultate


Vom considera o arhitectur de reea neuronal de tip PMS ca aceea prezentat n
Fig.7.1, cu un singur strat ascuns i cu un singur neuron n stratul de ieire. Atunci mulimea
de funcii implementat de aceast reea neuronal cu m neuroni n unicul strat ascuns este:

( ) ( )
)
`

e e + = = 9

=
m
i
i
n
i i
n m
n
G f R f G
1
, , , , ) ( : R R x w x w x R
i
u | u | (7.33)

Mulimea tuturor funciilor implementate de reele neuronale de tip PMS ce au orici
neuroni n stratul ascuns este:
192

( ) ( ) 9 = 9
=

n n
m
m
G G
1

(7.34)

Vom folosi n cele ce urmeaz urmtoarele notaii:

- oricare ar fi 1 s p < , notm:


| |
f f x d x
p
p
R
k
p
,
( ) ( )

=
}
1
(7.35)

( )


p
p
f g f g
,
,
, = (7.36)

( ) { } < =

,
:
p
n p
f f L R R (7.37)

( ) { } X pe continu f X f X C R = : (7.38)

D f x
f
x x
x
k
k
k
k
o
o o
o o
c
c c
o o o ( )
...
( ), ...
...
= = + +
+ +
1
1
1
1
(7.39)

( ) { } X pe continu m f D X pe continu f f C
n n m
s = o
o
, , : R R R (7.40)

- oricare ar fi X _ R
n
i oricare ar fi ( )
n m
C f R e , notm:

f D f x
m u X
m
x X
, ,
maxsup ( ) =
s
e
o
o
(7.41)

- oricare ar fi ( )
n m
C f R e , o msur finit pe R
n
i oricare ar fi 1 s p < , notm:

f D f d
m p
p
R
m
n
p
, ,
o
o
=

(
(
}

s
1
(7.42)

Def.7.13: Submulimea X _ ( ) L
p
se numete dens n ( ) L
p
dac oricare ar fi f e ( ) L
p
i
oricare ar fi c > 0, exist o funcie g e X astfel nct ( ) c
p
f g
,
, < .

Def.7.14: Submulimea S _ C(X) se numete dens n C(X) dac oricare ar fi f e C(X) i
oricare ar fi c > 0, exist o funcie g e S astfel nct ( ) c
u X
f g
,
, < .

Def.7.15: Submulimea S _ C
m
(R
n
) se numete uniform m-dens pe compact n C
m
(R
n
) dac
oricare ar fi f e C
m
(R
n
), oricare ar fi submulimea compact X _ R
n
i oricare ar fi c > 0,
exist o funcie g = g (f, X, c) e S astfel nct f g
m u X
<
, ,
c .

Def.7.16: Se numete spaiu Sobolev ponderat, mulimea definit astfel:

193
( ) ( ) { } < e =
u p m
n m p m
f C f C
, ,
,
R (7.43)

Obs.7.7: Dac msura are suportul compact, atunci C
m,p
() = C
m
(R
k
).

Def.7.17: Submulimea S _ C
m,p
() se numete dens n C
m,p
(), dac oricare ar fi f e C
m,p
()
i oricare ar fi c > 0, exist o funcie g = g (f,c) e S astfel nct f g
m p u
<
, ,
c .

n continuare vom enuna teoremele care constituie rezultatele de baz ale acestui
subcapitol, inspirate de lucrarea [102]:

Teorema 7.12: Dac funcia G este mrginit i neconstant, atunci mulimea ( ) 9
n
G este
dens n ( ) L
p
, oricare ar fi o msur finit definit pe R
n
.

Teorema 7.13: Dac funcia G este continu, mrginit i neconstant, atunci mulimea
( ) 9
n
G este dens n C(X), oricare ar fi submulimea compact X _ R
n
.

Teorema 7.14: Dac funcia G e C
m
(R
n
) este mrginit i neconstant, atunci mulimea
( ) 9
n
G este uniform m-dens pe compact n C
m
(R
n
) i dens n C
m,p
() pentru orice msur
definit pe R
n
cu suport compact.

Teorema 7.15: Dac funcia G e C
m
(R
n
) este neconstant i toate derivatele sale pn la
ordinul m sunt mrginite, atunci mulimea ( ) 9
n
G este dens n C
m,p
() pentru orice msur
finit definit pe R
n
.

Demonstraia acestor teoreme se bazeaz pe o metod folosit pentru prima dat de
Cybenko [37], care aplic teorema lui Hahn-Banach, precum i teoremele de reprezentare
pentru funcionale liniare continue pe spaiile de funcii luate n discuie. Pentru detalii
relative la demonstraia acestor teoreme se poate consulta lucrarea [102].


VII.4.3. PMS pentru aproximarea unei funcii i a derivatelor
sale


n capitolele precedente am vzut c o reea neuronal de tip PMS are capacitatea de a
aproxima orict de bine o funcie f : R
n
R. n aplicaiile practice, de o mare nsemntate
este nu numai capacitatea de a aproxima o funcie necunoscut f, ci i derivatele sale. Astfel,
lucrrile lui Jordan [110] din domeniul roboticii sugereaz ideea c o reea neuronal este
capabil nu numai de a aproxima o funcie ci i derivatele acelei funcii. Jordan a aplicat o
reea neuronal pentru a nva un robot micri deosebit de fine, ceea ce a i reuit, explicaia
succesului fiind dat de capacitatea reelei neuronale de a nva pe lng funcia necunoscut
de descriere a micrii i matricea Jacobian a acelei funcii de micare.
Cu toate c rezultatele experimentale sugereaz aceast capacitate a reelelor
neuronale de a aproxima o funcie necunoscut i derivatele sale, rezultate teoretice care s
garanteze aceast proprietate nu au fost obinute pn n anul 1990, an n care Hornik,
Stinchcombe i White public lucrarea [104].
Deoarece, se pune problema aproximrii nu numai a unei funcii necunoscute, ci i a
derivatelor sale necunoscute, intuiia sugereaz folosirea unor funcii de activare derivabile
194
pentru neuronii din stratul ascuns. Evident, justificarea acestei intuiii nu este imediat. S
considerm din nou clasa de reele neuronale de tip PMS cu o arhitectur ca aceea prezentat
n Fig.7.1 (n-neuroni n stratul de intrare, m - neuroni n stratul ascuns, un singur neuron n
stratul de ieire, x
i
e R
n
vectorii de intrare, w
i
e R
n
, i = 1, 2, ..., m vectorii triilor sinaptice
dintre stratul de intrare i stratul ascuns, k
i
e R, i = 1, 2, ..., m triile sinaptice dintre stratul
ascuns i stratul de ieire, G funcia de activare a neuronilor din stratul ascuns):

( ) ( )
)
`

e e = = E

=
m
i
i
n
i i
n
G k G k f f G
1
: , , , , ) ( : : R x w x w x R R R R R
i
(7.44)

Funciile f e E(G) au urmtoarele derivate pariale de ordinul nti:


( )
c
c
f x
x
k w G i n
i
j ji
j
m
( )
' , ,2,..., = =
=

w x
j
1
1 (7.45)

Rezultatele prezentate pn acum ne permit s afirmm existena unor trii sinaptice
k
j
, w
ji
e R pentru care funcia
c
c
f x
x
i
( )
poate aproxima derivata funciei necunoscute
F: R
n
R,
c
c
F x
x
i
( )
.
Problema este c alegerea triilor sinaptice k
j
, w
ji
e R din formula (7.45) pentru
aproximarea derivatei
c
c
F x
x
i
( )
nu reprezint neaprat alegerea potrivit pentru a aproxima
funciei necunoscute F conform formulei (7.44).
Ceea ce vom prezenta n cele ce urmeaz, va dovedi existena unor trii sinaptice ale
unui PMS capabil de a aproxima att o funcie necunoscut F, ct i derivatele sale
c
c
F x
x
i
( )
.
Pentru aceasta, ne vom baza pe o serie de rezultate prezentate n lucrarea [104], i anume vom
arta c pentru o anumit clas de reele neuronale de tip PMS, mulimea E(G) este dens n
spaii de funcii unde distana dintre funcii se msoar lund n considerare distana dintre
derivatele funciei (inclusiv derivata de ordin zero).
Vom introduce o serie de definiii care stabilesc contextul matematic al teoremelor
care vor fi enunate n acest paragraf, i care vor stabili riguros ceea ce ne-am propus, adic
construcia unei reele neuronale de tip PMS care s fie capabile de a aproxima o funcie
necunoscut i derivatele sale.

Def. 7.18: Fie S un spaiu de funcii. Funcia : S R
+
se numete distan sau metric dac
satisface proprietile:

- oricare ar fi f ,g e S, (f , g) > 0;
- oricare ar fi f ,g, h e S, (f , h) s (f , g) + (g , h);
- (f , g) = 0 dac i numai dac f = g.

Def. 7.19: Fie S un spaiu de funcii. Dac : S R
+
este o metric pe S atunci cuplul (S, )
se numete spaiu metric.

Capacitatea mulimii E(G) de a aproxima spaiul de funcii S se poate descrie cu
ajutorul conceptului de - densitate:
195

Def.7.20: Fie U _ R
n
, S = { f | f : U R } i (S, ) un spaiu metric. Oricare ar fi g e E(G),
definim restricia lui g la U astfel:
g
U
(x) = g(x), oricare ar fi x e U i nedefinit pentru x e U;
Dac oricare ar fi f e S i oricare ar fi c > 0 exist g e E(G) astfel nct (f , g
U
) < c, atunci
spunem c E(G) conine o submulime - dens n S. Dac n plus, g
U
e S oricare g e E(G),
atunci spunem c E(G) este - dens n S.

Relum Definiia 7.15 de m - uniform densitate pe un compact relativ la mulimea
E(G).

Def.7.21: Fie m, l e {0} N, 0 s m s l, U c R
n
i S c C
l
(U). Dac oricare ar fi f e S, c > 0
i mulimea compact K c U exist g e E(G) astfel nct:

maxsup ( ) ( )
o
o o
c
s
e
<
m
x K
D f x D g x

atunci spunem c mulimea E(G) este m - uniform dens pe compact n S.

Vom nota cu
K
m
o metric care induce o convergen m - uniform pe compactul K.
Dei metrica
K
m
este dependent i de mulimea U, din considerente de simplificare a notaiei
nu vom mai specifica i mulimea U.
Suntem astfel n stare s ntrevedem importana rezultatelor enunate pn acum:

Dac mulimea E(G) este m - uniform dens pe compact n S, indiferent de
alegerea funciei f e S, a preciziei c > 0 i a mulimii compacte K c U
ntotdeauna exist un PMS de tipul celui prezentat n Fig.7.1 cu proprietatea
c funcia g e E(G) are toate derivatele de ordin m ale restriciei sale g
U
e K
la o distan mai mic dect c fa de derivatele lui f pe compactul K.

Dup ce identifica noiunilor matematice necesare, vom da teoremele de caracterizare
a mulimilor G i U care asigur condiiile ca mulimea E(G) s fie m - uniform dens pe
compact n S, deosebit de util fiind alegerea S c C
m
(U).

Fa de paragraful anterior unde am introdus spaiul L
p
(), vom modifica notaia
acestui spaiu n aa fel nct s punem n eviden i mulimea de definiie U, astfel:

( ) | |
)
`

< s < =
}
p d f f f U f U L
p
U
p
U p
p
1 , , : ,
1
, ,


masurabila R (7.46)

Obs.7.8: i).Distana dintre dou funcii f,g e L
p
(U, ) se msoar prin metrica:




p U
p U
f g
, ,
, ,

ii).
p,U,
(f, g) = 0 dac f i g difer pe o mulime de msur nul.

Pentru a putea msura distana dintre dou funcii, innd cont de distana dintre
derivatele lor, vom introduce o metric definit pe un spaiu de funcii Sobolev. Vom prelua o
serie de elemente definite n paragraful anterior, dezvoltndu-le n concordan cu scopul
nostru.

196
Def. 7.22: Se numete spaiu Sobolev urmtoarea mulime de funcii:

( ) ( ) ( )
{ }
S U f C U D f m
p
m m
p U
, ,
, ,
o
o

= e < s (7.47)

Obs.7.9: i). Putem s definim norma Sobolev:

f D f
m p U
p U
p
m
p
, , ,
, ,

o
e
|
\

|
.
|
|
s

1
(7.48)

ii). Putem s definim distana (metrica) Sobolev:

( ) ( )


p
m
m p U
p
m
f g f g f g S U
,
, , ,
, , , , = e (7.49)

iii). Metrica Sobolev ine cont n mod explicit de distana dintre derivate. Dou
funcii din mulimea ( ) S U
p
m
, sunt "apropiate" n metrica Sobolev
p
m
,
dac toate
derivatele de ordin 0 s |o| s m sunt "apropiate" n metrica L
p
.

Def.7.23: Notm cu ( ) S loc
p
m
spaiul de funcii Sobolev:

( ) ( )( ) ( ) { } , s , U S f U U C f loc S
m
p
n n m m
p
e c e = marginit i deschis R R (7.50)

unde reprezint msura Lebesgue.

Pentru a putea defini o metric pe spaiul ( ) S loc
p
m
s facem notaia:

{ } n i x U
i
n
,..., 2 , 1 , = < e = |
|
R x (7.51)

Atunci putem defini metrica spaiului ( ) S loc
p
m
astfel:

( )
( )
( )

p loc
m
i m p U
p
m
i
f g f g f g S loc
i
,
, , ,
, min , , , = e
=

1
2
1
1
(7.52)

Obs.7.10: Dou funcii din mulimea ( ) S U
p
m
, sunt "apropiate" n metrica Sobolev
p loc
m
,
dac
toate derivatele de ordin 0 s |o| s m sunt "apropiate" n metrica L
p
pe submulimi deschise i
mrginite din R
n
.

Spaiile de funcii ( ) S U
p
m
, nu conin funcii derivabile peste tot, exceptnd mulimile
de msur nul (de exemplu funcii difereniabile pe poriuni - piecewise differentiable). Vom
arta c cu ajutorul reelelor neuronale de tip PMS, exist posibilitatea de a aproxima orict
de bine astfel de funcii.
Pentru a putea aborda aceast problem va fi necesar n cele ce urmeaz s lucrm cu
o noiune generalizat de derivat. De aceea vom introduce conceptul de distribuie i de
derivat distribuional, conform cu Schwartz [182].
Introducem urmtoarele notaii:

197
- supp f = cl { x e U | f(x) = 0 } unde f e C(U), iar cl (closure) are semnificaia de
nchidere a mulimii;

- C
0
(U) = { f e C(U) | supp f este o mulime compact };

- ( ) ( ) ( ) C U C U C U
0 0

= mulimea funciilor indefinit derivabile cu derivatele
continue i suport compact;

Def. 7.24: Se numete distribuie de la U la R o aplicaie liniar T : ( ) C U
0

R, adic ce are
proprietatea:

T ( a|
1
+ a|
2
) = aT (|
1
) + bT (|
2
), a, b e R, |
1
, |
2
e ( ) C U
0

.

Dac K c U este o submulime compact, facem notaia:

- spaiul funciilor msurabile: L
1
(K, ) = { f : U R | f d
K
<
}
};

- spaiul funciilor local integrabile:

L
1,loc
(U) = { L
1
(K, ) | K c U, K mulime compact };

- oricare ar fi f e L
1,loc
(U) definim distribuia T
f
: ( ) C U
0

R n felul urmtor:

( ) ( ) T f d C U
f
U
| | | = e

}
,
0
(7.53)

- oricare ar fi distribuia T putem defini derivata distribuional c
o
T: ( ) C U
0

R astfel:

( ) ( ) ( ) ( ) c | | |
o
o
o
T T D C U = e

1
0
, (7.52)

Obs.7.11: i). c
o
T este de asemenea o aplicaie liniar de la ( ) C U
0

la R;
ii). Dac f e C
m
(R) atunci c
o
o
T T
f
D f
= pentru |o| s m. n acest caz, derivata
distribuional este identic cu derivata clasic.

ntr-adevr avem:

( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) c | | | | | |
o
o
o
o
o o
o
T T D f D d D f d T C U
f f
U U
D f
= = = = e
} }

1 1
0
,

Chiar dac derivata clasic nu exist, poate exista un element h e L
1,loc
(U), astfel
nct s avem c
o
T
f
= T
h
.. n acest caz, putem scrie h = c
o
f, iar c
o
f se numete derivata
generalizat a lui f. Dac f e C
m
(U), atunci c
o
f = D
o
f.
Putem acum s definim spaiul Sobolev ce reprezint mulimea funciilor ce au
derivata generalizat de ordin pn la m aparinnd lui L
p
(U, ):

( ) ( ) ( )
{ }
W U f L U f L U m
p
m
loc p
= e e s s
1
0
,
, , c o
o
(7.55)

198
Spaiul ( ) W U
p
m
include spaiul ( ) S U
p
m
, ca i funciile ce nu sunt derivabile n sensul
clasic. Norma i metrica spaiului ( ) W U
p
m
generalizeaz norma i metrica spaiului
( ) S U
p
m
, , astfel:

( ) f f f W U
m p U
p U
p
m
p
m
p
, ,
, ,
, =
|
\

|
.
|
|
e
s

c
o

o
1
(7.56)

( ) ( )
p
m
m p U
p
m
f g f g f g W U , , ,
, ,
= e (7.57)

Dou funcii din spaiul Sobolev ( ) W U
p
m
sunt "apropiate" n metrica Sobolev
p
m

(7.57) dac toate derivatele generalizate sunt "apropiate" n metrica L
p
(U, ).
Ne intereseaz s determinm acele condiii asupra mulimilor G i U care determin
ca reelele neuronale de tip PMS s fie
p
m
- dens n spaiul ( ) W U
p
m
. Prin aceasta, reelele
neuronale de tip PMS sunt capabile de a aproxima o funcie necunoscut i derivatele sale
generalizate, cu orice precizie dorit, dac reeaua neuronal are n stratul ascuns un numr
suficient de neuroni.


Condiiile pe care trebuie s le satisfac mulimea U sunt:

(C1): U s fie o submulime deschis i mrginit a lui R
n
;
(C2): mulimea restriciilor funciilor din ( )
n
C R

0
relativ la U s fie
p
m
- dens n
spaiul ( ) W U
p
m
;

Obs.7.12: Motivul existenei condiiei (C2) este dat de posibilitatea ca alegerea lui U s fie
astfel fcut nct ( )
n
C R

0
s nu fie
p
m
- dens n spaiul ( ) W U
p
m
, atunci putndu-se construi
funcii care s aparin spaiului Sobolev ( ) W U
p
m
i care nu sunt aproximabile cu o precizie
dat de orice reea neuronal.

Conform cu [104], pn n prezent nu se cunosc condiii necesare i suficiente asupra
mulimii U n aa fel nct spaiul de funcii ( )
n
C R

0
s fie
p
m
- dens n spaiul ( ) W U
p
m
. Din
fericire ns exist o serie de condiii suficiente asupra mulimii U care asigur condiia ca
spaiul de funcii ( )
n
C R

0
s fie
p
m
- dens n spaiul ( ) W U
p
m
. Vom prezenta n cele ce
urmeaz dou astfel de condiii asupra mulimii U, i anume "condiia de segment" i
"condiia de form stelat n raport cu un punct".
S notm cu U complementara mulimii U n raport cu R
n
i fie frontiera mulimii U
notat cU definit astfel:

cU U U = cl cl (7.58)

Def.7.25: Mulimea deschis U verific "condiia de segment" dac oricare ar fi x e cU
exist o vecintate V
x
a lui x i y
x
e R
n
, astfel nct dac z e cl U V
x
, atunci segmentul z + t
y
x
, 0 < t < 1 aparine mulimii U.

199
Teorema 7.16: (Adams, [1]) Dac U verific "condiia de segment", atunci spaiul de funcii
( )
n
C R

0
este
p
m
- dens n spaiul ( ) W U
p
m
pentru orice 1 s p < i m = 0, 1, 2, ....

Def.7.26: Mulimea U verific "condiia de form stelat n raport cu un punct" dac exist
un punct x e U astfel nct orice segment de dreapt cu captul n punctul x are o unic
intersecie cu frontiera cU a domeniului U.

Teorema 7.17: (Maz'ja [137]) Dac mulimea mrginit U verific "condiia de form stelat
n raport cu un punct", atunci spaiul de funcii ( )
n
C R

0
este
p
m
- dens n spaiul
( ) W U
p
m
pentru orice 1 s p < i m = 0, 1, 2, ....

Def.7.26: Notm cu ( )
n
C R

+
spaiul funciilor rapid descresctoare, definit astfel:
( ) ( ) ( ) { } e =

+
x x x . , 0 ) ( , , pt f D indici multi C f C
n n o |
| o R R

unde
i
n i
n
x si x x x
n
s s
= =
1
2 1
max ...
2 1
x x
| | | |


Obs.4.13: ( )
n
C R

0
c ( )
n
C R

+
.

nainte de a formula teoremele fundamentale care ne asigur capacitatea unui PMS de
a aproxima o funcie necunoscut precum i a derivatelor sale cu orice precizie dorit, s
recapitulm spaiile de funcii definite, precum i metricile definite pe aceste spaii, metrici
care msoar distana dintre funcii precum i dintre derivatele lor pn la un anumit ordin:

(1)
( )
C
n
0

R spaiul funciilor rapid descresctoare;



( ) ( )
C
n
K
m
+

R , ;

(2) ( ) S U
p
m
, spaiul funciilor din C
m
(U) care au derivatele de ordin m L
p
(U, ) -
integrabile, pentru U i alei corespunztor;

( ) ( )
S U
p
m
p
m
, ,
,


;

(3) ( ) S loc
p
m
spaiul funciilor din C
m
(R
n
) care au derivatele de ordin pn la m L
p
(U,
) - integrabile, pentru toate submulimile mrginite U c R
n
;

( ) ( )
S loc
p
m
p loc
m
,
,
;

(4) ( ) W U
p
m
spaiul funciilor care au derivatele generalizate de ordin pn la m L
p
(U,
) - integrabile;

( ) ( )
W U
p
m
p
m
, ;

Dup ce am recapitulat cele mai importante elementele matematice introduse, s
definim acele condiii pe care trebuie s le satisfac mulimile G i U, astfel nct reelele
200
neuronale de tip PMS s aib proprietatea de aproximant universal n aceste spaii. n acest
scop vom urma rezultatele prezentate n [104].

Teorema 7.18: Fie m e Z
+
i ( ) ,
1
R
m
S Ge o funcie nenul. Atunci mulimea E(G) este m-
uniform dens pe compact n ( )
n
C R

+
.

Demonstraia se poate gsi n [104], bazndu-se pe reprezentarea integral Fourier a
reelelor neuronale de tip PMS cu un singur strat ascuns, avnd un numr nelimitat de neuroni
n stratul ascuns, propus prima dat de Irie i Miyake [106]. Analiznd teorema de mai sus,
tragem concluzia c dac funcia G de activare a neuronilor aparine spaiului ( ) ,
1
R
m
S Ge ,
atunci E(G) poate aproxima orice funcie ce aparine spaiului ( )
n
C R

+
, precum i derivatele
sale de ordin pn la m.
Din pcate, condiia de apartenen ( ) ,
1
R
m
S Ge este mult prea puternic, mai ales
pentru aplicaii practice, eliminnd funciile de activare de tip logistic i tangent hiperbolic
care nu aparin nici mcar spaiului ( ) ,
0
1
R S . n general, teorema de mai sus nu este valabil
pentru funcii de activare G de tip sigmoidal.
Din fericire, putem slbi condiiile de apartenen asupra funciei de activare a
neuronilor din stratul ascuns G. Pentru acest motiv introducem definiia de mai jos:

Def.7.27: Fie l e Z
+
. Funcia de activare G se numete l-finit dac G e C
l
(R) i
0 < <
}
D Gd
l
.

Lema 7.3: Dac funcia de activare G este l-finit pentru orice 0 s m s l, atunci exist o
funcie de activare ( ) ,
1
R
m
S H e , astfel nct E(H) c E(G).

Lema de mai sus slbete condiiile impuse de Teorema 7.18 asupra funciei de
activare G. Conform cu Lema 7.3, este suficient ca funcia de activare G s fie l-finit, i
atunci mulimea E(G) va conine o submulime E(H) care va fi m-uniform dens pe compact
n ( )
n
C R

+
pentru 0 s m s l.
Din punct de vedere practic, condiia este foarte important cci funciile de activare
cele mai importante de tip sigmoidal, ca de exemplu funcia de activare logistic sau tangent
hiperbolic, satisfac condiia de l-finitudine.
S analizm mai n detaliu condiia ca funcia de activare G s fie l-finit:

- dac ( ) ,
1
R
m
S Ge , atunci pentru orice 0 s k s m avem D Gd
K
=
}
0;

- dac G e C
l+1
(R) i D Gd
l
<
}
, atunci D Gd
l +
=
}
1
0 ;

- dac D Gd
l +
}
1
exist i este nenul, atunci D Gd
l
=
}
.

Obs.7.14: Cteva exemple de funcii care nu satisfac condiiile Teoremei 7.18:

dac G = sin atunci G e C

(R), dar oricare ar fi l atunci D Gd


l
=
}
;

201
dac G este funcie polinomial de gradul m atunci G e C

(R), pentru l s m
avem D Gd
l
=
}
, iar pentru l > m avem D Gd
l
=
}
0;

n general, orice funcie polinomial sau trigonometric nu este l-finit;

Din Teorema 7.18 i din Lema 7.3 obinem urmtoarele corolare:

Corolarul 7.1: Dac funcia de activare G este l-finit, atunci pentru orice 0 s m s l mulimea
E(G) este m-uniform dens pe compact n ( )
n
C R

+
.
Corolarul 7.2: Dac funcia de activare G este l-finit, U c R
n
o submulime deschis, atunci
pentru orice 0 s m s l mulimea E(G) este m-uniform dens pe compact n ( ) S U
p
m
, , 1 s p <
.
Corolarul 7.3: Dac funcia de activare G este l-finit, este o metric cu suport compact,
atunci pentru orice 0 s m s l mulimea E(G) c ( ) ,
n m
p
S R i E(G) este
p
m
,
- dens n
( ) ,
n m
p
S R .
Corolarul 4.4: Dac funcia de activare G este l-finit, atunci pentru orice 0 s m s l E(G) este

p loc
m
,
- dens n ( ) S loc
p
m
.

S construim n cele ce urmeaz un model de reea neuronal de tip PMS ce are
capacitatea de a aproxima o funcie necunoscut f : R
2
R precum i a derivatelor sale
pariale de ordinul nti R R =
2
1
1
:
x
f
f
c
c
i R R =
2
2
2
:
x
f
f
c
c
. Schema din figura de mai
jos este un pic diferit de arhitectura obinuit a reelelor neuronale deoarece pune n eviden
i modul de propagare a calculelor.

















Fig7.3: Arhitectura unei reele neuronale capabil a aproxima o funcie f i derivatele sale pariale
f
1
i f
2
ordinul I:
- linia continu corespunde funciei f;
- linia continu corespunde derivatelor pariale f
1
i f
2
de ordinul I a funciei f;
- O neuron de intrare; neuron aditiv; neuron multiplicativ;
- O G neuron cu funcia de activare G; O DG neuron cu funcia de activare DG.


DG
w
11

w
12

w
21

w
22

x
2

x
1

x
x
x
x
+
+
x
x
x
x
x
x
+
+
+
f
1

f
2

f
DG
G
G
k
1

k
2

202

VI I .5. Limitele aplicrii n practic a proprietilor reelelor
neuronale


n analiza capacitii de aproximant universal a reelelor neuronale, ca de altfel i
pentru alte metode de aproximare-interpolare, nu se iau n considerare limitrile proprietilor
acestor metode ca urmare a implementrii lor pe calculatoare secveniale de tip von Neuman
[201] (vezi Cap. II). Aspectul pe care dorim s l analizm prin prisma aplicrii practice, adic
a implementrii pe un sistem de calcul tradiional secvenial sau chiar paralel, este
proprietatea de aproximant universal a reelelor neuronale. Am vzut n acest capitol c
ntr-adevr reelele neuronale posed aceast proprietate de aproximant universal, fiind
capabile s aproximeze orice funcie continu cu orice precizie dorit.
Ceea ce am artat n acest capitol pn n acest moment ne d dreptul de a utiliza
reelele neuronale pentru a aproxima funcii continue. Ceea ce dorim s analizm n
continuare este influena implementrii pe un calculator secvenial a reelei neuronale, deci de
fapt a simulrii modului de funcionare a unei reele neuronale.

- De ce este important aceast analiz? Deoarece, chiar dac n Cap. I am prezentat o
serie de elemente hardware de calcul neuronal, acestea au nc un caracter limitat,
folosirea reelelor neuronale este nc n proporie de 90% bazat pe simularea
funcionrii lor pe sisteme de calcul secveniale (sau paralele). De aceea, majoritatea
argumentelor tiinifice folosite n studiul reelelor neuronale ca i metode de
aproximare - interpolare sunt confirmate folosind un mediu secvenial i nu distribuit
ceea ce ridic o serie de probleme de care este bine s se in cont.

- Care este problema de a simula funcionarea unei reele neuronale pe un sistem de
calcul secvenial, privit prin prisma teoriei aproximrii? Vom arta n cele ce
urmeaz c o reea neuronal, simulat prin implementat pe un sistem de calcul
serial, nu mai posed din punct de vedere practic aceast proprietate de aproximant
universal.

- Cum trebuie interpretate aceste rezultate? Rezultatul enunat mai sus nu distruge
capacitatea de aproximant universal a reelelor neuronale. Ceea ce am artat i
demonstrat mai nainte n acest capitol rmne perfect adevrat relativ la proprietatea
de aproximant universal a reelelor neuronale. ns, trebuie avut grij n folosirea
argumentelor practice obinute prin simularea unei reele neuronale pe un sistem de
calcul secvenial (sau paralel) ca dovezi ale capacitii unei reele neuronale de a fi o
metod de aproximare universal. Argumentaia de mai nainte este valabil de altfel
pentru orice metod de aproximare distribuit a crei simulare se face prin
implementarea pe sisteme de calcul secveniale.


VII.5.1. Echivalena polinomial

S considerm o reea neuronal general de tipul celei din Fig. 7.1, care posed
proprietatea de aproximant universal. O astfel de reea neuronal este o reea neuronal de
tip PMS avnd un singur strat ascuns, compus din:
un strat de intrare cu n neuroni de intrare;
203
un strat ascuns cu N neuroni avnd ca funcie de activare funcia sigmoidal G;
un strat de ieire avnd un singur neuron de ieire;
stratul de intrare este conectat cu stratul ascuns prin intermediul triilor sinaptice
w
i
e R
n
;
statul ascuns este conectat cu stratul de ieire prin intermediul triilor sinaptice
v
i
e R.

Valoarea generat la stratul de ieire, de unicul neuron de ieire, ce are ca funcie de
activare o funcie de activar liniar este:

y v G I
j j
j
N
=
=

( )
1
(7.59)

Cea mai general formulare este ntlnit n situaia cnd fiecare neuron din stratul
ascuns are o funcie de activare particular, dup cum vedea de altfel n capitolele urmtoare,
cnd vom construi reele neuronale de tip PMSR (Perceptron MultiStrat de Regularizare).
De aceea, vom putea scrie, n cel mai general caz, c valoarea generat de reeaua neuronal
este:
y v G I
j j j
j
N
=
=

( )
1
(7.60)

Funciile de activare G
j
sunt funcii neliniare, evaluarea lor fcndu-se pe un sistem de
calcul secvenial. Aceasta nseamn c funcia de activare va fi calculat utiliznd o
aproximaie polinomial care este implementat ca baz de calcul pe orice sistem de calcul
secvenial.
De aceea, n momentul evalurii funciei de activare relativ la un neuron ascuns,
putem considera ca aceast funcie de activare este echivalent cu un polinom. Aceast
echivalen are un dublu sens:

- sens practic: evaluarea efectiv a funciilor de activare G
j
se face pe un sistem de calcul;

- sens teoretic: funciile de activare sunt analitice i avnd deci un echivalent polinomial.

S notm echivalentul polinomial al funciilor de activare n felul urmtor:

( ) G x a a x a x i N
i i i i
= + + + =
, , ,
, , ,
0 1 2
2
1 (7.61)

Obs.7.15: Polinomul echivalent poate fii diferit pe anumite domenii de funcia de activare
echivalent, dar va exista ntotdeauna i va fi convergent ctre funcia de activare echivalent
pe domeniul de definiie al acesteia [212].

Pe baza acestei echivalene polinomiale, putem exprima valoarea generat de reeaua
neuronal n felul urmtor:

204

( )
( )
( )
y v G I v a a I a I
v a a a b b b
j i i
i
N
i i i i i i
i
N
i i i i i i
i
N
= = + + + =
= + + + = + + +
= =
=

( )
, , ,
, , ,
1
0 1 2
2
1
0 1 2
2
1
0 1 2
2

w x w x x x
(7.61)

unde am introdus notaia:

b v a
k i i k i
k
i
N
=
=
,
w
1
(7.62)

n concluzie, n momentul cnd se simuleaz modul de funcionare a unei reele
neuronale prin implementarea pe un calculator secvenial sau paralel, valoarea generat de
acea reea neuronal poate fi considerat ca fiind valoarea generat de un polinom:

( ) y P b b b = = + + + x x x
0 1 2
2
(7.63)


VII.5.2. Influena procesului de nvare

Pentru a dovedi aseriunea pe care am fcut-o c o reea neuronal, simulat prin
implementarea pe un sistem de calcul serial, nu mai posed din punct de vedere practic
proprietatea de aproximant universal, vom studia procesul de nvare al reelei neuronale
care este de fapt un proces de aproximare-interpolare al unei funcii necunoscute, exprimate
printr-o mulime discret de puncte, i anume mulimea de antrenament.
Pentru aceasta vom analiza modificrile pe care le provoac asupra reelei neuronale
aproximante procesul de antrenament (nvare) i cum se reflect aceste modificri asupra
coeficienilor b
k
din polinomul P(x) (7.63).
Dup cum am vzut, un termen polinomial este de forma:

b v a
k i i k i
k
i
N
=
=
,
w
1
(7.64)

S introducem notaiile:
- notm cu Av
i
modificarea celei de-a i-a trii sinaptice ce leag al i-lea neuron din stratul
ascuns de neuronul de neuronul de ieire;

- notm cu Aw
i
modificarea celei de-a i-a trii sinaptice ce leag neuronii din stratul de
intrare de al i-lea neuron din stratul ascuns;

- notm cu Aa
ik
modificarea coeficientului a
ik
:

notm cu Ab
ik
modificarea coeficientului b
ik
. Atunci pu
te
m scrie:

205

( )( )( )
( )( ) ( )
( ) ( )
b b v v a a
v a v a v a k O
v a kv a v a a v O
k k i i
i
N
ik ik i i
k
i ik i ik i ik
i
N
i
k
i
k
i
i ik i
k
i ik i
k
i ik i
k
ik i
k
i
i
N
+ = + + + =
= + + + + =
= + + + +
=
=

A A A A
A A A A
A A A
1
1
1 2
1
1
2
w w
w w w
w w w w
(7.65)

Influena asupra coeficienilor polinomului P (7.63) este:


( ) ( )
A A A A A b kv a v a v a O
k i ik i
k
i i ik i
k
i ik i
k
i
N
= + + +

w w w w
1
1
2
(7.66)

S studiem capacitatea reelei neuronale de a modifica coeficienii b
k
a polinomului P
(7.63). Pentru aceasta, s analizm formula de mai sus care exprim variaia valorii Ab
k

acestor coeficieni polinomiali.
Conform cu [212] putem considera c datorit echivalenei polinomiale coeficienii
polinomiali satisfac relaia:

b k
k
0 cnd (7.67)

Conform cu ecuaia (7.65), i innd cont de relaia de mai sus (7.67) rezult c
coeficienii a
ik
trebuie s descreasc mai rapid dect creterea lui w
i
k
, atunci cnd k crete.
Considernd atunci termenii relaiei (7.66) obinem:

kv a k
i ik i
k
i
w w


1
0 A , cnd (7.68)

A k a v
k
i ik i
cnd , 0 w (7.69)

A k a v
k
i ik i
cnd , 0 w (7.70)

Deoarece termenii ce conin pe A
k
, k > 2 pot fi neglijai, dac trecem la limit n relaia
(7.66) obinem:

lim
k
k
b

= A 0 (7.71)

Aceast limit ne arat c modificrile coeficienilor polinomului echivalent P,
datorate modificrilor triilor sinaptice n cadrul procesului de nvare, tind la zero atunci
cnd gradul polinomului k crete la infinit. Acest rezultat este independent de algoritmul de
nvare utilizat.
Altfel spus, termenii polinomului P de ordin mai mare dect MAX, nu vor mai fi
modificai de ctre procesul de nvare, adic de modificrile triilor sinaptice. Motivul este
datorat preciziei de reprezentare numerice a calculatorului secvenial pe care se
implementeaz reeaua neuronal, care are o anumit limit inferioar mai mare dect variaia
coeficienilor Ab
k
. Din aceast cauz polinomul echivalent P (7.64) poate fi considerat ca
suma a dou polinoame:

206
( ) ( ) ( ) P P P b b
N i
i
i
i
i
i
x x x x x = + = +
= = +

MAX
MAX
MAX 0 1
(7.72)

Reeaua neuronal implementat pe sistemul de calcul poate fi astfel considerat ca un
polinom finit de grad MAX, care corespunde termenului P
MAX
. Polinomul care corespunde
termenului P
N
are coeficieni care nu se mai modific n urma procesului de nvare, adic n
urma modificrii triilor sinaptice. Acest termen poate fi considerat ca un termen ce
corespunde unui zgomot de reprezentare a datelor.

n concluzie, dac implementm o reea neuronal pe un sistem de calcul secvenial,
datorit unor limitri tehnologice care influeneaz reprezentarea datelor, reeaua neuronal se
comport ca o metod de aproximare finit n raport cu mulimea datelor de antrenament, ne
mai avnd proprietatea de aproximant universal.

Cu toate acestea, proprietile de aproximant a reelei neuronale sunt foarte
importante, i, dup cum vom vedea n continuare, superioare metodelor clasice ale analizei
numerice. Pentru a obine rezultate de o precizie care s confirme n totalitate afirmaiile
teoretice, reeaua neuronal ar trebui implementat pe un hardware adecvat calculului
neuronal.
























207
VIII. Reelele neuronale ca i metode de aproximare-
interpolare



S considerm o funcie y = f (x), f : X Y, care aplic vectorul x vectorului y. Forma
analitic a funciei f este necunoscut, ea putnd fi o abstracie a unui proces fizic, ca de
exemplu previzionarea temperaturii y de azi, cunoscnd temperaturile x din anii precedeni.
Singura informaie accesibil este reprezentat de o mulime de observaii T = (x, f(x)). Aceste
observaii sunt de cele mai multe ori corupte mai ales datorit imperfeciunii aparatelor de
msur.

Scopul nostru principal este de a reconstrui funcia f, avnd la dispoziie doar
mulimea "zgomotoas" de observaii T = (x, f(x)). Evident, nu este posibil s determinm n
mod unic funcia f, deoarece avem la dispoziie doar o cantitate limitat de informaii despre
aceast funcie, de aceea ceea ce ne putem propune ca i obiectiv, este de a determina o
aproximant F a funciei f [85].

Problema care trebuie analizat cu mare atenie este faptul c ne propunem s
aproximm funcia f cu ajutorul funciei F, relativ la mulimea de observaii T = (x ,f (x)),
aceasta aproximare corespunde fazei de nvare, iar mulimea de observaii T = (x , f (x))
corespunde mulimii de antrenament din cadrul calculului neuronal.

Dar funcia aproximant F trebuie s aib performane de aproximare bune pe tot
domeniul de definiie X al funciei f - aceasta ar corespunde capacitii de generalizare a
unei reele neuronale din cadrul calculului neuronal.
Cum s msurm ns calitatea aproximrii funciei f de ctre funcia F ?

Cea mai comun metod de msurare uzual a calitii aproximrii se bazeaz eroarea
ptratic:

( ) ( ) ( ) E f F d
g
=
}
1
2
2
x x x
X
(8.1)

E
g
corespunde erorii de generalizare a unei reele neuronale.

Deoarece funcia f nu este cunoscut pentru orice x aparinnd domeniului de definiie
X, uneori va trebui s aproximm eroarea de aproximare bazndu-ne pe mulimea de
observaii T = (x , f (x)).
Obinem eroarea ptratic :

( ) ( ) ( ) E e f F
l t
t T t T
= =
e e

1
2
2
x x (8.2)

E
l
corespunde erorii de nvare a unei reele neuronale.

Pentru a msura performanele aproximrii vom utiliza adeseori i eroarea, numit
eroare medie ptratic ( MSE - Mean Squared Error):

( ) ( ) ( ) E
T
E
T
f F
MSE l
t T
= =
e

1 1 2
x x (8.3)
208

Cum se determin o aproximant F a funciei f ?

De obicei, funcia F este o funcie parametric F(x,w), parametri fiind optimizai cu
scopul minimizrii erorii de aproximare. n teoria aproximrii acest proces de optimizare se
numete estimarea parametrilor, n timp ce n teoria calculului neuronal acest proces de
optimizare se numete nvare.

Este bine s subliniem urmtoarele probleme:

Problema reprezentrii: ce aproximare s folosim, adic care clas de funcii f
poate fi aproximat de ctre clasa de funcii aproximante F(x,w).

Problema alegerii: ce algoritm s utilizm pentru a determina valorile optimale ale
parametrilor w e P, pentru o alegere dat a funciei aproximante F(x,w).

Problema implementrii: care este modalitatea implementrii eficiente a
algoritmului, utiliznd echipamente paralele sau dac este posibil neuronale.


VI I I .1. Problema aproximrii


Pentru orice schem de aproximare putem construi o reea neuronal. Numele generic
de reea poate fi privit n fond ca o notaie grafic pentru o larg clas de algoritmi. n acest
context, o reea neuronal este o funcie reprezentat ca o compunere a mai multor funcii de
baz.

S formulm n continuare problema aproximrii, considernd o metric indus de o
norm, pentru a putea msura distana dintre funcia de aproximat f i funcia aproximant F:

Def.8.1 (Problema aproximrii): Dac f(x) este o funcie continu i F(x,w) este o funcie
aproximant ce depinde continuu de parametrii w e P i de variabila x, problema aproximrii
este determinarea parametrilor w*, astfel nct:

( ) | | ( ) | | ( ) P e s w x x w x x w , ) ( , , ) ( , *, f F f F .

Dac problema aproximrii are soluie, ea se numete cea mai bun aproximant.
Dup cum vom vedea, existena celei mai bune aproximante este determinat de clasa de
funcii creia i aparine funcia aproximant F(x,w).


VIII.1.1. Metode de aproximare globale


S analizm cteva exemple de funcii aproximante F(x,w) : R
n
R i s punem n
eviden i clasele de reele neuronale care-i corespund [159]:

209
- cazul liniar clasic: ( ) F w x w x , = , w, x e R
n
. Reeaua neuronal ce i corespunde
este un PS (Perceptronul Simplu), o reea neuronal ce nu are straturi ascunse.
- schema de aproximare clasic ce este liniar ntr-o baz de funcii { }
m
i i 1 =
| :

( ) ( ) F
i i
i
m
w x w x , =
=

|
1

- Reeaua neuronal ce i corespunde este un PMS (Perceptron Multistrat), cu un singur
strat ascuns. Putem identifica n aceast reprezentare numeroase scheme de
aproximare ca de exemplu interpolarea spline, dezvoltarea n serii de polinoame
ortogonale, sau dac funciile de baz |
i
sunt produse de puteri, atunci funcia
aproximant F este un polinom.

- schema de funcii sigmoidale compuse, de tipul BP (Back Propagation - IV.2.1),
poate fi scris astfel:
( ) F
i i i i
i i i
y y
y
w x w w w x , ... ... =
|
\

|
.
|
|
|
\

|
.
|
|
|
\

|
.
|
|
|
\

|
.
|
|

o o o o
1 2
2 1

unde o reprezint funcia de activare sigmoidal. Aceast schem da aproximare nu
este foarte uzual n teoria clasic a aproximrii funciilor continue.


VIII.1.2. Metode de aproximare locale

Modelarea parametric local ncearc s rezolve problemele metodelor clasice de
aproximare prin divizarea spaiului datelor de intrare, n domenii mai mici, care pot sau nu s
fie disjuncte. Fiecare domeniu este aproximat, de obicei, prin utilizarea unei funcii
aproximante simple pe acel domeniu. Este ns adevrat c dac complexitatea problemei de
aproximat este redus prin aceast aproximare local, variana problemei crete. De foarte
mare importan este numrul i poziia domeniilor, o bun alegere ducnd la foarte bune
rezultate de aproximare.
Cel mai simplu model de aproximare local l reprezint modelul local constant, unde
spaiul datelor de intrare este divizat n domenii disjuncte, fiecare domeniu fiind aproximat cu
o constant care reprezint media valorilor relativ la acel domeniu.
















Fig. 8.1: Metod de aproximare bazat pe modelul local constant.
... reprezint funcia de aproximat;
reprezint funcia aproximant;
+ reprezint punctele mulimii de antrenament.

*

210

Ca exemple de metode de aproximare local putem meniona metodele spline [23],
partiionarea recursiv [108] i RBF (Radial Basis Functions).

Metodele locale de aproximare au performane bune cnd spaiul datelor de intrare are
o dimensionalitate mic (s 3), performanele acestor metode nu mai sunt corespunztoare
pentru dimensionaliti mai mari dect 3. Acest lucru este datorat faptului c numrul de
domenii necesare crete exponenial cu dimensionalitatea spaiului de intrare, numrul de date
de antrenament fiind de asemenea foarte mare n acest caz.


VIII.1.3. Caracterizarea metodelor de aproximare

Metodele de aproximare discutate pn n acest moment prezint o serie de avantaje i
dezavantaje. Care metod este mai potrivit, depinde de problema concret ce trebuie
rezolvat: numrul de date de antrenament, dimensionalitatea spaiului de intrare, cunotine
a-priori despre problema de rezolvat etc.
Din cele prezentate, putem trage concluzia c metodele de aproximare bazate pe
calculul neuronal, pot fi clasificate n dou mari clase:

- metode de aproximare locale;

- metode de aproximare globale.

Caracterizarea general a acestor dou metode de aproximare, cuprinde urmtoarele
trsturi [126]:

metode de aproximare locale:

- necesit un numr redus de date de antrenament;

- flexibilitatea aproximrii este dependent de setrile iniiale, cum ar fi de
exemplu numrul de neuroni existeni n stratul ascuns;

- procesul de nvare (optimizare a parametrilor) este ndelungat, obinerea unui
punct de minim absolut este dificil.

metode de aproximare globale:

- necesit un numr mare de date de antrenament;

- flexibilitatea aproximrii este foarte bun, datorit dependenei de numrul,
poziia i dimensiunea domeniilor locale. Dac este necesar, noi domenii pot fi
adugate sau eliminate (nvare incremental);

- procesul de nvare (optimizare a parametrilor) este de obicei rapid, deoarece
majoritatea parametrilor au doar o influen local.



211
VI I I .2. Aproximarea funciilor netede


O reea neuronal, este ineficient ca i metod de aproximare, dac reuete doar s
nvee o mulime de antrenament, dar nu reuete s generalizeze [45]. Dorina noastr este ca
funcia aproximant F(x,w) s generalizeze relativ la spaiul datelor de intrare X i pe baza
mulimii datelor de antrenament T = (x, f(x)), s reconstruiasc ct mai bine funcia de
aproximat f.

n general, dorina noastr nu este uor de satisfcut. De exemplu, dac funcia de
aproximat este funcia carte de telefon - aplic unui nume un numr de telefon, atunci nu
avem nici o problem n a crea o list de cutare (look-up table), care s conin nume i
numere de telefon. Dar, este imposibil ca s obinem numrul de telefon al unei persoane
inexistente n lista de cutare.
Pentru a face aproximarea posibil relativ la ntregul spaiu al datelor de intrare,
funcia de aproximat f trebuie s fie redundant, n sensul c mulimea finit de antrenament
trebuie s conin date relativ la toat funcia.

De aceea, pentru a msura performanele de generalizare a funciei aproximante
F(x,w) trebuie s folosim eroarea de generalizareE
g
(8.1).

Aproximarea unei funcii netede pe baza unei mulimi de antrenament T = (x , f (x))
nseamn crearea unei funcii aproximante F(x,w), cu urmtoarele proprieti:

- eroarea de nvare trebuie s fie ct mai mic, deoarece estimarea parametrilor
funciei aproximante F(x,w) se face pe baza datelor din mulimea de antrenament
T = (x , f (x));

- funcia aproximant F(x,w) trebuie s fie ct mai neted, deoarece se presupune c
funcia de aproximat f este neted;

Cele dou proprieti cerute sunt ntr-un fel contradictorii:

- o aproximare foarte neted nu poate aproxima bine mulimea de antrenament T =
(x , f (x)). Acest fenomen este echivalent cu bias (III.4.2).

- pe de alt parte o aproximare foarte bun a mulimii de antrenament de
antrenament T = (x , f (x)) compromite netezimea aproximrii. Acest fenomen este
echivalent cu variana (III.4.2).

Fenomenul prin care obinem o eroare de nvare E
l
mic, dar o eroare de
generalizare E
g
mare (deci o netezime slab a aproximrii) se numete supra-saturaie
(overfitting), iar fenomenul opus se numete sub-saturaie (underfitting).
Echilibrul care trebuie realizat ntre aproximri cu bias mare i varian mare se
numete contradicia bias versus varian, pe care am analizat-o prin perspectiva statisticii n
III.4.2.




212
VIII.2.1. Alegerea reelei neuronale aproximante


Alegerea funciei aproximante F(x,w), deci a reelei neuronale, depinde de
performanele msurate prin prisma erorii de nvare E
l
i a erorii de generalizare E
g
, n
situaia n care acceptm restriciile menionate mai sus. Pentru aceast alegere trebuie s fie
satisfcute condiiile:

(C1) funcia aproximant F(x,w), deci reeaua neuronal, este suficient de
flexibil pentru a putea aproxima ct mai bine funcia de aproximat f -
aceast nseamn un bias mic;

(C2) variana funciei aproximante F(x,w) este limitat.

Condiia (C1) este influenat de alegerea arhitecturii reelei neuronale, existnd mai
multe posibiliti de satisfacere a condiiilor de netezime. Algoritmul de nvare a reelei
neuronale, care coincide n teoria aproximrii cu estimarea parametrilor funciei aproximante
F(x,w), nu influeneaz condiia (C1). Algoritmul de nvare ncearc doar s minimizeze
eroarea de nvare E
l
, relativ la mulimea de antrenament T = (x , f (x)).

Cum putem atunci influena condiia (C2), deci variana funciei aproximante F(x,w)?

O soluie posibil pentru a limita variana este limitarea flexibilitii modelului
parametric, adic a reelei neuronale, prin stabilirea unor limite relativ la arhitectura reelei
neuronale: numr de straturi, numr de neuroni n straturile ascunse, numr de trii sinaptice,
dimensionalitatea mulimii de antrenament etc.
Putem defini n acest scop o valoare numit grad de libertate, care va fi numrul
maxim de parametrii utilizai pentru aproximare, valoare care va caracteriza de fapt variana
maxim.
De foarte mare ajutor pentru estimarea parametrilor funciei aproximante F(x,w) sunt
unele cunotine a priori despre funcia de aproximat f. Acest lucru va fi tratat pe larg ntr-un
capitol urmtor.


VIII.2.2. Influena numrului de date de antrenament


Dup cum vom vedea i n capitolele urmtoare, dimensionalitate datelor de
antrenament respectiv de testare au o mare importan n aproximarea unei funcii netede de
ctre o reea neuronale. Acest lucru este evident, deoarece estimarea parametrilor este un
proces puternic dependent de numrul acestor parametri.

213


Fig. 8.2: Eroare de nvare E
l
i eroarea de generalizare E
g
.

Dup cum se vede i din figura de mai sus, avem urmtoarele probleme:

- Date de antrenament T = (x, f (x)) puine. Eroarea de nvare E
l
va fi mic,
deoarece modelul parametric (reeaua neuronal) este suficient de flexibil ca s
aproximeze un numr redus de date de antrenament. Funcia aproximant
F(x,w) ce va rezulta n urma procesului de estimare a parametrilor va
generaliza ns slab, eroarea de generalizare E
g
va fi mare.

- Date de antrenament T = (x, f (x)) multe. Eroarea de nvare E
l
va fi mare,
deoarece modelul parametric (reeaua neuronal) nu mai este suficient de
flexibil ca s aproximeze un numr mare de date de antrenament. Funcia
aproximant F(x,w) ce va rezulta n urma procesului de estimare a parametrilor
va generaliza ns bine, eroarea de generalizare E
g
va fi mic.

Determinarea numrului necesar de date de antrenament T = (x , f (x)) este dificil n
aplicaiile practice, fiind dependent de flexibilitatea modelului parametric (reeaua
neuronal) ales. O important influen o are i dimensionalitatea funciei de aproximat
f : X _ R
n
Y _ R
m
, definit ca suma dintre dimensionalitatea spaiului de intrare n plus
dimensionalitatea m a spaiului de ieire, adic (n + m).
Dac dimensionalitatea n + m este mare, atunci avem nevoie de un numr mai mare de
date de antrenament T = (x , f (x)). Acest fenomen este cunoscut n literatura de specialitate
sub numele de problema dimensionalitii (course of dimensionality). Concluzia evident
este c funciile de aproximat f, de dimensionalitate (n + m) mare, sunt foarte dificil de
aproximat, cu excepia faptului cnd cunotine a priori reduc complexitatea problemei.


VIII.2.3. Reele neuronale i teoria regularizrii


n general orice metod de aproximare posed un algoritm specific de determinare a
mulimii optime a parametrilor w. O strategie general, care chiar dac nu ntotdeauna este
cea mai eficient, o reprezint aplicarea unor metode de relaxare ca de exemplu gradientul
214
descendent sau gradientul conjugat [136], sau revenirea simulat n spaiul parametrilor, care
au ca el minimizarea erorii relativ la mulimea datelor de antrenament T = (x , f (x)).

Dup cum am vzut pn n acest moment, dac considerm nvarea reelelor
neuronale prin perspectiva teoriei aproximrii, putem stabili o echivalen ntre nvarea de
ctre o reea neuronal a unei funcii netede (smooth) i o problem standard de aproximare -
reconstrucia unei suprafee pe baza unei mulimi de antrenament T = (x , f (x)).

n aceast analogie, a nva nseamn a aproxima exemplele (datele de antrenament),
adic coordonatele datelor de intrare x e R
n
, precum i nlimea dorit a suprafeei z n acel
punct. A generaliza nseamn estimarea nlimii z ntr-un punct x care nu face parte din
mulimea datelor de antrenament. Aceasta nseamn interpolarea sau mai general aproximarea
suprafeei n puncte situate n plan printre datele de nvare. Din acest punct de vedere,
problema reconstruciei unei suprafee sau problema aproximrii aparine unei clase generice
de probleme numite probleme inverse [93].
O problem invers poate fi bine-definit (well-posed) sau ru-definit (ill-posed).
Termenul de problem bine-definit a fost folosit n matematica aplicat, prima dat de
Hadamand la nceputul acestui secol [122].

Def. 8.2: Problema aproximrii unei funcii f : X Y se numete bine-definit dac sunt
satisfcute urmtoarele condiii [147], [193]:
(C1) Condiia de existen: Oricare ar fi x e X, exist y e Y, astfel nct y = f (x);
(C2) Condiia de unicitate: Oricare ar fi x, t e X, avem f (x) = f (t), dac i numai dac x = t;
(C3) Condiia de continuitate: funcia f este continu.

Def. 8.3: Problema aproximrii unei funcii f : X Y se numete ru-definit dac nu este
satisfcut cel puin una dintre condiiile (C1), (C2), (C3) din Definiia 8.2.

Din acest punct de vedere, procesul de nvare a unei reele neuronale, sau problema
de aproximare a unei funcii netede pe baza unei mulimi de antrenament este ru-definit, n
sensul c datele de antrenament nu sunt suficiente pentru a reconstrui n mod unic funcia n
puncte unde nu avem date de antrenament (condiia de unicitate (C2) nu este satisfcut).
De asemenea, nu ntotdeauna datele de antrenament sunt de o mare acuratee, ele fiind
n general zgomotoase, ceea ce duce la invalidarea condiiei de continuitate (C3).

De aceea, trebuie s lum n considerare o serie de ipoteze a priori despre funcie,
ipoteze care s transforme o problem ru-definit ntr-o problem bine-definit.
Referindu-ne la proprietatea de generalizare, acest lucru nu este posibil dac avem de-a face
cu o funcie aleatoare. Proprietatea de generalizare se bazeaz pe faptul c lumea
nconjurtoare este la un anumit nivel redundant i n particular, poate fi caracterizat ca
fiind neted, adic mici modificri ale unor parametri de intrare se reflect n mici modificri
ale valorilor de ieire [123].
Aceast ipotez de netezime este cea mai slab i general ipotez care permite
existena procesului de aproximare. Evident, c alte ipoteze mai puternice despre o funcie, ca
de exemplu faptul c este liniar sau convex sau c este invariant n raport cu un anumit
grup de transformri etc., uureaz problema aproximrii acelei funcii.

Netezimea unei funcii poate fi msurat n mai multe moduri, cea mai bun fiind
utilizarea unei funcionale ce conine derivate ale funciei considerate.

Concluzionnd, putem spune c dac nu avem nici o informaie disponibil despre o
funcie de aproximat multidimensional, singura ipotez ce poate fi luat n considerare este o
215
netezime ridicat a acestei funcii. Altfel, numrul de date de antrenament necesare ar fi total
nepractic, deci problema ar fi nerezolvabil.
Tehnicile de aproximare care se folosesc de restricia referitoare la netezime sunt
cunoscute sub denumirea de tehnici de regularizare standard. Aceast metod a fost
introdus pentru prima dat de Tikhonov n anul 1963 [194].

Regularizarea standard are la baz o problem variaional de a gsi acea suprafa
care minimizeaz o funcional cost ce const din doi termeni:

- Termenul eroare standard: primul termen ( ) ( ) E f
S i i
i
=

1
2
2
z y msoar distana
dintre valoarea obinut y = f (x) i valoarea dorit z;

- Termenul de regularizare: al doilea termen ( ) E f f
R
=
1
2
2
P msoar costul asociat cu
o funcional ||Pf||
2
care conine informaii a priori referitoare la f, P fiind de obicei un
operator diferenial. Alegerea operatorului P este dependent de problema concret de
rezolvat. Operatorul P este numit stabilizator n sensul c stabilizeaz soluia, fcnd-
o neted, deci continu.

Atunci, problema noastr const n a determina hipersuprafaa f care minimizeaz
expresia:


( )
1
2
1
2
2
2
z y
i i
i
Pf +

(8.4)

unde: i reprezint indexul mulimii datelor de antrenament;
reprezint parametrul de regularizare ce controleaz compromisul dintre gradul de
netezime al soluiei i precizia de aproximare.

Conform cu [17], regularizarea standard genereaz soluii echivalente cu spline-ul
generalizat, ceea ce ar permite exploatarea rezultatelor din tehnicile de aproximare-interpolare
spline n cadrul procesului de nvare a reelelor neuronale i viceversa.


VI I I .2.3.1. Problema regularizrii i regula lui Bayes


Dup cum am vzut mai nainte, problema nvrii unei reele neuronale este
echivalent cu problema regularizrii (8.4). Ceea ce dorim s cunoatem este dac, ntr-
adevr, acestei afirmaii putem s-i dm o justificare matematic consistent.

S presupunem c cunoatem mulimea de date T, care conine mulimea de N puncte
pentru aproximarea funciei f : R R
n
, sau, dac privim prin prisma calculului neuronal,
mulimea de N date de antrenament:

( ) { } N i y y T
i
n
i i i
, , 2 , 1 , , , = e e = R R x x (8.5)

unde mulimea T poate fi afectat de zgomot, adic de imperfeciunea aparatelor de msur.

216
Atunci:

( ) f y i N
i i i
x = + = c , ,2, , 1 (8.6)

variabilele c
i
fiind variabile aleatoare independente, generate cu ajutorul unei distribuii
probabilistice date.
Problema de rezolvat este determinarea funciei f, mai bine spus a unei aproximante,
pornind de la mulimea de date de antrenament T. Pentru aceasta vom apela la o strategie
probabilistic, considernd funcia de determinat f ca i realizarea unui cmp probabilistic
aleator cu o distribuie probabilistic iniial cunoscut.
S introducem urmtoarele notaii [80]:

| |
P f T - probabilitatea condiional a funciei f, dac se cunoate mulimea de
antrenament T;

| |
P T f - probabilitatea condiional a mulimii de antrenament T, dac se cunoate
funcia f;

| |
P f - probabilitatea iniial (a priori) a cmpului de probabilitate f. Aceast
probabilitate include cunotinele noastre a priori despre funcia f, putnd fi folosit
pentru a impune anumite restricii asupra modelului, asignnd probabiliti mari doar
acelor funcii ce satisfac restriciile impuse.

Putem presupune c distribuiile probabilistice
| |
P T f i
| |
P f sunt cunoscute, atunci
putem determina probabilitatea a posteriori
| |
P f T , prin aplicarea regulii lui Bayes:


| | | | | |
P P P f T T f f (8.7)

S presupunem c variabilele aleatore c
i
ce corespund zgomotului din formula (8.6)
sunt distribuite pe baza unei distribuii probabilistice normale, avnd variana o. Atunci putem
scrie:


| |
( ) ( )
P T f e
y f
i i
i
N



=
1
2
2
2
1
o
x
(8.8)

Modelul pentru distribuia probabilistic a priori
| |
P f poate fi aleas analog cu cazul
determinist (cnd funcia f este definit pe o submulime finit a lui
n
R [135]. Pe aceast
baz avem:


| |
| |
P f e
f

ou
(8.9)

unde u[f] este o funcional de netezire de tipul termenului de regularizare din capitolul
precedent, iar o un parametru real pozitiv. Forma acestei distribuii probabilistice favorizeaz
acele funcii pentru care termenul de regularizare u[f] este mic.
Pe baza relaiei lui Bayes (8.7) probabilitatea a posteriori a lui f poate fi scris sub
forma:
217


| |
( ) ( ) | |
P f T e
y f f
i i
i
N

(
(
=
1
2
2
2
2
2
1
o
oo x u
(8.10)

O soluie simpl pentru estimarea probabilistic a funciei f din relaia de mai sus
(8.10) este aa numita estimare MAP (Maximum A Posteriori) care consider acea funcie
care maximizeaz probabilitatea a posteriori
| |
P f T , ceea ce presupune minimizarea
exponentului exponenialei din membrul drept al relaiei (7.82):


| | | | { }
( ) | |
P P f T f T f F e
optim
z f x f
= e =

max max
1
2
2
2
o
ou
(8.11)

Cu alte cuvinte, estimarea MAP este de fapt minimizarea urmtoarei funcionale:


| | ( ) ( ) | |
H f y f f
i i
i
N
= +
=

x
2
1
u (8.12)

unde o o = 2
2
. Observm identitatea dintre funcionala de mai sus i problema regularizrii
(8.4). Din formula parametrului de regularizare se poate observa rolul acestuia de reglare a
echilibrului dintre nivelul zgomotului c
i
i presupunerile a priori despre soluie sau, altfel
spus, echilibrul dintre gradul de netezime a soluiei i eroarea de aproximare.

Dac introducem, conform cu [159], termenul de complexitate a ipotezelor, definit
astfel:

( ) ( ) C = logP (8.13)

vom obine:

( ) ( ) ( )
C f T C f C T f c = + + (8.14)

termenul c depinde de probabilitatea a priori
| |
P f , depinznd doar de funcia f.

Din cele artate, estimarea MAP coincide cu metoda regularizrii, dac zgomotul este
gaussian i distribuia probabilistic a priori
| |
P f este o distribuie gaussian relativ la o
funcional liniar dependent de funcia f (8.9).
Astfel, termenul eroare standard din ecuaia regularizrii (8.4) corespunde termenului
C(T|f), n timp ce termenul de regularizare corespunde lui C(f) din ecuaia (8.14).
Distribuia probabilistic a priori
| |
P f poate reprezenta i alte cunotine a priori i
nu numai cele legate de regularizare, adic netezime. Alte caliti, ca de exemplu convexitate,
pozitivitate, proprieti locale pot fi incluse prin intermediul acestei informaii a priori. O
extensie i o generalizare a tehnicilor de regularizare o constituie modelele aleatoare Markov,
care permit o mai mare flexibilitate n definirea condiiilor de generalizare, exprimabile de
exemplu n termeni de netezime local (piecewise smoothness) [77].




218
VI I I .2.3.2. Soluia problemei regularizrii. Soluia 1


S definim problema regularizrii:

Problema regularizrii: S se determine funcia f care minimizeaz funcionala E(f), definit
astfel:
( ) ( ) ( ) E f E f E f
S R
= +

unde E
S
(f) este termenul eroare standard, E
R
(f) este termenul de regularizare, iar este
parametrul de regularizare.

Minimizarea funcionalei E(f) se face pe baza evalurii diferenialei lui E(f). Pentru
aceasta, vom folosi difereniala Frechet, care este pentru funcionala E(f) [38]:

( ) ( ) dE f h
d
d
f h , = +

(
=
|
|
| 0
(8.15)

unde funcia h este o funcie fixat de variabil x.

O condiie necesar pentru ca funcia f(x) s fie un punct de extrem relativ pentru
funcionala E(f) este ca difereniala dE(f, h) s fie nul n f(x), pentru orice funcie h e H (H
fiind un spaiu Hilbert). Atunci avem:

( ) ( ) ( ) dE f dE f dE f
S R
= + = 0 (8.16)

S evalum fiecare termen al ecuaiei difereniale de mai sus:

Termenul eroare standard:


( ) ( ) ( ) ( )
| |
( ) ( )
| |
( ) ( )
| |
( )
dE f h
d
d
E f h
d
d
f h
f h h f h
S S i i i
i
i i i
i
i i i
i
i
,
|
= +

(
=

(
=
= =
= =
=


|
|
|
|
|
| |
|
0
2
0
0
1
2
z x x
z x x x z x x
(8.17)

Teorema 8.1 (Teorema de reprezentare a lui Riesz) [39]: Fie g o funcional liniar
mrginit, definit pe un spaiu Hilbert H. Atunci exist o unic funcie h
0
e H astfel nct:

( ) ( ) H
H
e = h h h g , ,
0


De asemenea avem:
H H
0
h g =
-
, unde H
*
este conjugatul (dualul) spaiului Hilbert
H.

Pe baza Teoremei 8.1, s rescriem relaia (8.17):

( ) ( ) ( ) dE f h h f
S i i
i
H
, , =
|
\

|
.
|

z x x o (8.18)

219
unde ( ) o x x
i
este distribuia delta Dirac centrat n punctul x
i
.

Termenul de regularizare:


( ) ( ) | | ( )
| | ( )
dE f h
d
d
E f h
d
d
f h d
f h hd f hd h f
R R
H
n
n n
,
,
= + = + =
= + = =
= =
=
}
} }
|
|
|
|
|
| |
|
0
2
0
0
1
2
P x
P P x P P x P P
R
R R
(8.19)

Dac notm cu P
*
operatorul adjunct (conjugat) al operatorului P, avem:

( ) ( )
dE f h h f
R
, , =
-
P P
H
(8.20)

Revenind la condiia de minimizare (8.16) i nlocuind expresiile obinute, avem:

( ) ( ) ( ) dE f h h f f
i i
i
, , =

(
=
-

2
1
0 P P z x x
H

o (8.21)

Relaia de mai sus este satisfcut n sens distribuional, dac i numai dac:


( ) ( ) ( ) ( ) P P z x x P P z x x
- -
= =

f f f f
i i
i
i i
i
1
0
1

o
(8.22)

Ecuaia de mai sus este cunoscut sub numele de ecuaia Euler - Lagrange pentru
funcionala E(f) [159].


VI I I .2.3.3. Funciile Green i teoria regularizrii


Soluia problemei regularizrii, dedus mai sus, poate fi scris sub forma:

( ) ( ) ( ) ( ) P P x z x x x
i
-
=

f f
i i
i
1

o (8.23)

Ecuaia de mai sus este o pseudo-ecuaie diferenial cu derivate pariale n
necunoscuta f. Soluia ecuaiei se obine ca o transformare integral, n care va apare funcia
Green a operatorului diferenial P
*
P [35], [159].
S notm cu G(x;x
i
) funcia Green centrat n punctul x
i
. Prin definiie, funcia Green
G(x;x
i
) satisface ecuaia diferenial cu derivate pariale:

( ) P P x x
-
= G
i
; 0 (8.24)

cu excepia punctului x = x
i
, unde funcia Green G(x;x
i
) are o nesingularitate. Putem atunci
rescrie relaia de mai sus, cu ajutorul distribuiei delta Dirac:

( ) ( ) P P x x x x
-
= G
i i
; o (8.25)
220

Aplicnd atunci transformarea integral ecuaiei (8.23), conform cu [35], obinem:

( ) ( ) ( ) f G d
n
x x
R
=
}
; (8.26)

unde funcia () reprezint membrul drept al ecuaiei (8.23), iar variabila x a fost nlocuit
cu variabila . Funcia () poate fi scris sub forma:


( ) ( )
| |
( )

o =

1
z x
i i i
i
f (8.27)

Substituind relaia (8.27) n relaia (8.26), inter-schimbnd ordinea de sumare i de
integrare, folosind de asemenea proprietile funciei delta, obinem [35]:

( ) ( )
| |
( ) f f G
i i i
i
x z x x x =

; (8.28)

Relaia de mai sus ne arat c soluia f(x) a problemei regularizrii este o combinaie
liniar de funcii Green centrate n punctele x
i
, care vor fi numite centre de expansiune, iar
coeficienii
( ) z x
i i
f

vor fi numii coeficienii expansiunii.




VI I I .2.3.4. Soluia problemei regularizrii. Soluia 2


Cnd dorim s caracterizm o funcie prin faptul c este neted, privim netezimea ca o
msur a comportamentului oscilator al funciei [80]. Cu alte cuvinte, vom spune despre o
funcie derivabil c este mai neted dect alt funcie derivabil, dac oscileaz mai puin.
Din punct de vedere al domeniului frecvenelor, care sunt reprezentate de dou funcii netede,
vom spune c o funcie este mai neted dect alta, dac are o energie mai mic la o frecven
mai mare.
Coninutul de frecvene nalte a unei funcii poate fi msurat astfel [80]:

- filtrarea n band nalt a funciei;

- msurarea puterii semnalului filtrat - aceasta este de fapt norma L
2
a semnalului
filtrat;

Pornind de la aceast interpretare fizic, termenul de regularizare Pf
2
poate fi definit
astfel:


( )
( )
P s
s
s
f d
f
G
2
2
=
}
~
~
R
n
(8.29)
221
unde notaia
~
indic transformata Fourier [75];
1
~
G
este un filtru trece-sus, reprezentat
printr-o funcie ce tinde la zero cnd ||s|| i pentru care clasa de funcii ce corespund
unui astfel de filtru bine definit este nevid.

Un exemplu de astfel de clas de funcii G bine definite se gsete n [43], funcionala
ce reprezint termenul de regularizare este o semi-norm, cu un spaiu nul finit.

n funcie de alegerea funciei G, funcionala ce corespunde termenului de regularizare
Pf
2
poate avea sau nu un spaiu nul vid, i de aceea exist o clas de funcii invizibile
pentru aceast funcional. Pentru a rezolva aceast problem, vom defini o relaie de
echivalen relativ la mulimea funciilor care difer pentru un element al spaiului nul al
termenului regularizrii Pf
2
.

S exprimm primul termen, termenul eroare standard, din cadrul problemei
regularizrii, n funcie de transformata Fourier a funciei f:

( ) ( ) f C d f e
i
n
x s s
xs
=
}
~
R
(8.30)

Vom obine funcionala:


| |
( )
( )
( )
( )
H f z C d f e d
f
G
i
i
i
n n
~ ~
~
~
= +
} }

s s s
s
s
xs
R R
2
2
(8.31)

Deoarece funcia f este real, transformata sa Fourier satisface condiia:

( ) ( )
~ ~
f f
-
= s s (8.32)

Funcionala (8.31) poate fi rescris astfel:


| |
( )
( )
( ) ( )
( )
H f z C d f e d
f f
G
i
i
i
n n
~ ~
~ ~
~
= +
} }

s s s
s -s
s
x s
R
i
R
2
(8.33)

Pentru a minimiza funcionala de mai sus, impunem condiia ca derivata sa n raport
cu
~
f s fie nul:


| |
( )
n
f
f H
R e = t
t
, 0
~
~
o
o
(8.34)

n urma calculelor obinem:

222
| |
( ) ( )
( )
( )
( )
( ) ( )
( ) ( )
( ) ( )
( )
( )
( )
( )
( ) ( ) ( )
( )
( )
( )
( ) ( )
( )
( )
o
o
o
o

o
o
o
o
o
o
o o
H f
f f
C d f e
f
d
f f
G f
z f x d
f
f
e d
f
G
z f x d e
f
G
z f x e
f
G
i
i
i
i i
i
i
i i
i
i
i i
i
i
i
n n
i
n n
i
n
i
~
~ ~
~
~
~ ~
~ ~
~
~
~
~
~
~
~
~
t t
z s s
t
s
s s
s t
s
s
t
s
s
s
s t s s t
t
t
t
t
x s
x s x s
x t
= +

=
= +

= +
+

= +

}

} }

}

R R
R R R
2
2 2 2
2 2 2
(8.35)

nlocuind n ecuaia (8.35), fcnd schimbarea de variabil t - t i multiplicnd
ambii membrii ai ecuaiei cu ( )
~
G t , obinem:

( ) ( )
( ) ( )
~ ~
f G
f
e
i i
i
i
i
t t
z x
x t
=


(8.36)

S introducem notaia:


( ) ( )
w
f
i
i
i i
=

=
z x

, ,2, 1 (8.37)

Presupunnd c funcia
~
G este simetric, adic transformata sa Fourier este real, i
aplicnd ultimei ecuaii (8.36) transformata Fourier, obinem:


( ) ( ) ( ) ( ) f w G wG
i i i i
i i
x x x x x x = =

o ; (8.38)

S ne reamintim, c mai nainte am definit o relaie de echivalen, prin care, toate
funciile care difer printr-un termen ce aparine spaiului nul al termenului de regularizare
Pf
2
, sunt echivalente. Atunci cea mai general soluie pentru problema de minimizare
(8.34) este:

( ) ( ) ( ) f w G p
i i
i
x x x x = +

; (8.39)

unde p(x) este un termen din spaiul nul al termenului de regularizare Pf
2
.

Sau, dac notm cu
{ }

o
o=1
k
o baz a spaiului nul k-dimensional al termenului de
regularizare Pf
2
, iar cu d
o
coeficieni reali, avem:

( ) ( ) ( ) f w G d
i i
i
N k
x x x x = +
= =

;
1 1
o o
o
(8.40)

223
Cum s determinm coeficienii necunoscui
( ) ( )
w
f
i
i
i i
=

=
z x

, ,2, 1 din relaia


(8.39)? Pentru aceasta vom evolua funcia f n punctele x
j
, j = 1, 2,, N care corespund
centrelor de expansiune.



( ) ( )
f w G j N
j i j i
i
x x x = =

; , ,2, , 1 (8.41)

Introducnd notaiile:


( ) ( ) ( )
| |
f x x x = f f f
N
T
1 2
, , , (8.42)


| |
z z z z =
1 2
, , ,
N
T
(8.43)


( ) ( ) ( )
( ) ( ) ( )
( ) ( ) ( )
G
x x x x x x
x x x x x x
x x x x x x
=

(
(
(
(
(
G G G
G G G
G G G
N
N
N N N N
1 1 1 2 1
2 1 2 2 2
1 2
; ; ;
; ; ;
; ; ;

(8.44)



| |
w= w w w
N
T
1 2
, , , (8.45)

Putem atunci rescrie relaiile (8.36) i (8.41) n form matricial:

( ) w G f f z w = = ,
1

(8.46)

Eliminnd pe f i rearanjnd termenii obinem:

( ) G I w z + = (8.47)

unde I este matricea identic de ordinul N. Dac matricea ( ) G I + este inversabil, atunci
obinem soluia:

( ) w G I z = +

1
(8.48)

Soluia de mai sus se bazeaz pe urmtoarele date:

- alegerea operatorului pseudo-diferenial P i prin urmare a funciei Green asociate
G(x
i
;x
j
), i, j = 1,2,,N;

- cunoaterea vectorului z (8.43);

- alegerea parametrului de regularizare .

224
VI I I .2.3.5. Diferite clase de stabilizatori


Dup cum am vzut n VIII.2.3.4., problema regularizrii ne conduce la considerarea
unei clase de stabilizatori de forma (8.29):


| |
( )
( )
u f d
f
G
=
}
s
s
s
~
~
2
R
n
(8.49)

care conduce la soluii ale problemei regularizrii de aceeai form (8.38), (8.39), (8.40). n
funcie de proprietile funciei Green G, vom obine diferii stabilizatori. Fiecare stabilizator
corespunde la diferite prezumii a priori asupra netezimii funciei de aproximat.

A. Stabilizatori radiali

Cea mai mare parte a stabilizatorilor utilizai n practic posed proprietatea de
simetrie radial, care se exprim matematic:

( )
| |
( )
| |
u u f f R x x = (8.50)

oricare ar fi R o matrice de rotaie.

Aceast proprietate reflect prezumia a priori c toate variabilele au aceeai
relevan, neexistnd direcii privilegiate. Dup cum vom vedea, aceti stabilizatori invariani
rotaional, corespund aa numitelor Radial Basis Functions (RBF) ( ) G x .

De fapt, metoda RBF este o metod general ce poate fi aplicat n general pentru a
aproxima sau interpola orice funcie continu. Ea are o importan practic deosebit n cadrul
tehnologiei calculului neuronal, reelele neuronale aproximante care rezult, avnd proprieti
superioare celorlalte tipuri de reele neuronale ntlnite n practica aplicrii calculului
neuronal.

Considerente matematice relativ la RBF

Funciile de tip RBF pot fi studiate n cazul cel mai general, i anume, ca soluie a
problemei interpolrii reale, problem care poate fi formulat astfel:

Def. 8.4: (Problema interpolrii): Fiind dat mulimea de N puncte distincte
{ } N i
n
i
,..., 2 , 1 = eR x i mulimea de N numere reale { } N i y
i
,..., 2 , 1 = eR , s se gseasc
funcia F : R
n
R ce satisface condiia de interpolare:

( ) F y i N
i i
x = = , ,2,..., 1 (8.51)

Metoda RBF const n alegerea funciei cutate F, de forma:

( )
( )
( ) F c h d p m n
i i i i
i
m
i
N
x x x x = + s
= =

,
1 1
(8.52)

unde: h : R
n
R este o funcie continu numit funcie RBF;
225
este norma Euclidian definit pe R
n
;

{ }
p i m
i
=1,2,..., este o baz a spaiului liniar H
k-1
(R
n
) de polinoame algebrice
definite de la R
n
la R ;
= k e N un numr natural dat.

Analiznd forma soluiei (8.52) descoperim de fapt identitatea acestei forme cu soluia
general a problemei regularizrii (8.28). Regsim de fapt ntr-un context particular ceea ce
am dovedit deja ntr-un context mai general.

Analiznd forma funciei RBF (8.52), avem ca necunoscute:

- N coeficieni c
i
;
- m coeficieni d
i
;

deci un total de (N + m) necunoscute.

Din condiiile de interpolare (8.51) obinem N ecuaii liniare. Restul de m ecuaii
liniare se vor obine prin impunerea urmtoarelor restricii [158]:


( ) c p j m
i j i
i
N
x = =
=

0 1
1
, ,2,..., (8.53)

Obinem astfel, urmtorul sistem (N + m) ecuaii liniare cu (N + m) necunoscute:


( )
( )
F y i N
c p j m
i i
i j i
i
N
x
x
= =
= =

, ,2,...,
, ,2,...,
1
0 1
1
(8.54)

Pentru a putea studia rezolvabilitatea sistemului de N + m ecuaii cu N + m
necunoscute avem nevoie de o serie de rezultate ajuttoare [142].

Def. 8.5: O funcie continu f : [0 , ) R se numete condiional (strict) pozitiv definit de
ordinul k peR
n
, dac pentru orice puncte distincte x
1
, x
2
, ..., x
N
e R
n
i orice scalari c
1
, c
2
, ...,
c
N
e R pentru care avem ( ) ( ) ( )
n
k
N
i
i i
p p c R
1
1
, 0

=
H e =

x , forma ptratic satisface


inegalitatea:

( ) ( ) 0 0
1 1
> >

= =
N
i
N
j
j i j i
f c c x x (8.55)

Notaia 8.1: Vom nota clasa funciilor condiional pozitiv definite de ordinul k pe R
n
cu
P
k
(R
n
).

Obs. 8.1: Pentru k = 0 mulimea P
k
(R
n
) a funciilor condiional pozitiv definite se reduce la
mulimea funciilor pozitiv definite [142].

Conform cu [142], o condiie suficient de existen a unei soluii de forma (8.52)
pentru problema aproximrii este ca funcia h e P
k
(R
n
), adic funcia h trebuie s fie
226
condiional pozitiv definit de ordinul k peR
n
. Din acest motiv, este deosebit de important s
fim n stare s dm o caracterizare ct mai complet acestei clase de funcii.

Def. 8.6: O funcie f : [0 , ) R se numete complet monoton pe intervalul [0 , ) dac
f e C

(0 , ) i dac satisface condiia:



( ) ( ) ( ) > e e 1 0 0
i
i
i
f
i
c
cx
x x , , , N (8.56)


Notaia 8.2: Vom nota cu M
k
mulimea funciilor a cror derivat de ordinul k este complet
monoton pe intervalul [0 , ).

Teorema 8.2: Oricare ar fi numrul natural k e N, dac funcia h este continu pe intervalul
[0, ) i ( ) ( ) 1
k
k
k
h
r
r
c
c
este complet monoton pe intervalul (0 , ), atunci avem h(r
2
) e
P
k
(R
n
).

S analizm implicaiile acestei teoreme: dac derivata de ordinul k a funciei h este
complet monoton, atunci funcia F de forma (8.52) poate fi folosit pentru a rezolva
problema interpolrii (8.51). De exemplu, dac considerm funciile h r r ( ) =
3
2
i funcia
g r r r ( ) log =
1
2
avem c h(r), g(r) e M
2
i conform cu Teorema 8.2, rezult c h r r ( )
2 2
=
i g r r r ( ) log
2 2
= aparin mulimii P
2
. Pe aceast baz, este posibil s interpolm orice
mulime dat de puncte utiliznd funciile h(r
2
) sau g(r
2
) ca i funcii RBF n construcia
funciei F de forma (8.52), unde polinomul folosit are gradul I.

Pentru cazul particular k = 0, se obine ca i caz particular al Teoremei 8.2
binecunoscuta teorem a lui Schoenberg [179] relativ la funcii pozitiv definite. n acest caz,
forma funciei F (8.52), devine:

( )
( )
F c h
i i
i
N
x x x =
=

1
(8.57)

Pentru a determina coeficienii necunoscui c
i
impunem cele N condiii de interpolare
(8.51):

( ) F y i N
i i
x = = , ,2,..., 1 .

Aceste condiii substituite n relaia (8.57), conduc la sistemul liniar:

Hc = y (8.58)

unde avem notaiile:

(y)
i
= y
i
; (c)
i
= c
i
; (H)
ij
= ( )
j i
h x x .

Teorema 8.2 ne asigur de faptul c sistemul (8.58) are ntotdeauna soluie, deoarece
matricea H este inversabil, fiind condiional strict pozitiv definit.
227

Obs. 8.2: Teorema 8.2 ne d doar o condiie suficient, ceea ce nseamn c multe alte funcii
pot fi folosite ca i funcii de tip RBF fr a fi condiional pozitiv definite.

O alt teorem ce ne asigur o condiie suficient este urmtoarea:

Teorema 8.3: Fie o funcie h : [0 , ) R
+
, avnd derivata de ordinul I neconstant dar
complet monoton pe intervalul (0 , ). Atunci pentru orice puncte distincte x
1
, x
2
, ..., x
N
e
R
n
avem relaia:

( )
( )
>

1 0
1
2
N
i j
h det x x (8.59)

Pe baza Teoremei 8.3, putem construi o list de funcii ce pot fi folosite pentru a
rezolva n practic problema interpolrii unei anumite mulimi de puncte date:


( ) ( )
( )
( )
( ) ( )
( ) ( )
h r e Gaussian
h r
c r
h r c r
h r r liniar
r
c
=
=
+
>
= + < <
=

|
\

|
.
|
2
1
0
0 1
2 2
2 2
o
|
o
|
(8.60)


n [132] i [43] se arat c n cazul acestui stabilizator invariant rotaional (8.50),
funcionala din ecuaia (8.49) este o semi-norm i atunci problema variaional asociat este
bine-definit. Vom considera n cele ce urmeaz dou exemple importante pentru tehnica
calculului neuronal [80]:

Exemplul 8.1: Spline

Duchon n lucrarea [41] consider ca msur a netezimii stabilizatori de forma:


| | ( ) u f d f
n
m
=
}
s s s
R
2
2
~
(8.61)

Rezultatul problemei variaionale este n acest caz, conform cu [41]:

( )
~
G
m
s
s
=
1
2
(8.62)

Funcia RBF corespunztoare este:

( )

>
=

altfel ,
par este si 2 dac , ln
2
2
n m
n m
n n m
G
x
x x
x (8.63)

228
n acest caz, spaiul nul al stabilizatorului
| |
u f este spaiul vectorial al mulimii
polinoamelor de grad mai mic sau egal cu m, de n variabile. Dimensiunea acestui spaiu
vectorial este k C
n m
n
=
+ 1
. Dac particularizm pentru m = 2 i n = 2, obinem funcia:

( ) G x x x =
2
ln (8.64)

numit funcia thin plate [91], reprezentat grafic n Figura 8.3.


Exemplul 8.2: Spline multidimensional

O clas important de stabilizatori se gsete n lucrarea [139]. Meinguet consider
funcionale de forma:

( )
( )
O f d f
m
i i
R
i i
n
m
n
m
2
2
1
1
=
}

x x c
...
...
(8.65)
unde c
c
c c
i i
m
i i
m
m
x x
m
1
1
1
...
...
, . = > Acest tip de stabilizator este invariant rotaional i
translaional. Mai mult, deoarece operatorul diferenial implicat este omogen, o transformare
scalar a variabilelor are ca efect nmulirea funcionalei cu o constant.
Funcia Green ataat acestui tip de stabilizator este radial, invariant translaional i
satisface urmtoarea ecuaie diferenial distribuional:


( ) ( ) ( ) V = 1
2 m m
G x x o (8.66)

unde V
2m
reprezint Laplacianul de ordinul m n spaiul n-dimensional. Soluia acestei ecuaii
difereniale se obine utiliznd metoda transformrii generalizate Fourier [76], fiind:

( )

>
=

altfel
par este dac
,
2 , ln
2
2
n m
n m
n si n m
G
x
x x
x (8.67)

Din relaia de mai sus rezult c restricia 2m > n este necesar a fi impus pentru a
obine o funcie Green care s nu fie singular n origine. S presupunem n continuare c
avem condiia 2m > n satisfcut.

Din teoria funciilor spline se tie c dac stabilizatorul este de ordinul m, atunci
funcia Green este condiional pozitiv definit de ordinul m. Pe baza rezultatelor anterioare
putem afirma, dac se cunoate m e N, pentru a interpola mulimea de puncte
( ) { } N i y
n
i i
,..., 2 , 1 , = e R R x putem folosi urmtoarea funcie:

( ) ( ) f c G p
i
i
N
i m
( ) x x x x = +
=

1
1
(8.68)

unde p
m-1
(x) este un polinom de gradul (m 1).

n cazul particular n = m = 2, funcionala de minimizat este:
229

O f dxdy
f
x
f
x y
f
y
R
2
2
2
2
2
2
2
2
2
2
2
=
|
\

|
.
|
+
|
\

|
.
|
+
|
\

|
.
|

(
(
}
c
c
c
c c
c
c
(8.69)

iar funcia Green ataat este funcia ( ) h r r r =
2
ln .



Fig. 8.3: Graficul funciei RBF ( ) G x x x =
2
ln (thin plate).


Exemplul 8.3: Gaussian

S considerm un stabilizator de forma:


| | ( ) u f d e f
n
=
}
s s
s
R
2
2
|
~
(8.70)


Parametrul | este un parametru real pozitiv fixat. Rezultatul problemei variaionale
este n acest caz, conform cu [80]:

( )
~
G e s
s
=

2
|
(8.71)

Funcia RBF corespunztoare este:

( ) G e
L
x
x
=

1
(8.72)

230
Funcia Gaussian este pozitiv definit, i dup cum vom vedea, funciile pozitiv
definite pot defini norme de forma stabilizatorului (8.49). Deoarece acest stabilizator este o
norm, spaiul su nul conine doar elementul zero, nemai fiind nevoie s adugm la soluia
problemei variaionale (8.39) i termenul corespunztor spaiului nul, care termen apare la
spline.
Comparnd funcia Gaussian cu spline-ul observm la prima existena parametrului
real pozitiv | de care depinde, n timp ce spline-urile fiind funcii omogene nu depind de nici
un parametru de scalare. n Figura 8.4 avem reprezentarea grafic a funciei Gaussiene.


Fig. 8.4.: Graficul funciei RBF ( ) G e x
x
=

2
.



Exemplul 5.4: Alte funcii RBF


Utiliznd diferii ali stabilizatori, conform cu [80], n tehnica calculului neuronal se
pot folosi urmtoarele funcii de tip RBF:

( ) G c x x = +
2 2
- funcia multi-cvuadratic (8.73)

( ) G
c
x
x
=
+
1
2 2
- funcia multi-cvadratic invers (8.74)

De asemenea, din cele dou exemple de mai sus avem:

( ) G
n
x x x =
2
ln - spline (8.75)

( ) G
n
x x =
+ 2 1
- spline (8.76)
231

( ) G e
L
x
x
=

1
- Gaussian (8.77)


B. Stabilizatori de tip produs tensorial

O alt posibilitate de a alege stabilizatorul o constituie produsul tensorial, care este o
funcie de forma:

( ) ( )
~
~
'
G g s
i
i
n
s =
=
[
1
(8.78)

unde s
i
este a i - a coordonat a vectorului n-dimensional s, iar
~
g o funcie de o singur
variabil, corespunztor aleas.
Dac g este o funcie pozitiv definit, atunci funcionala (stabilizatorul)
| |
u f este o
norm, avnd spaiul nul vid [80]. Dac considerm funcia din (8.68) vom obine
stabilizatorul:


| |
( )
( )
u f d
f
g s
i
i
n n
=
=
[
}
s
s
~
~
2
1
R
(8.79)

care va conduce la o funcie Green de forma produs tensorial:

( ) ( ) G g x
i
i
n
x =
=
[
' 1
(8.80)

unde x
i
este a i - a coordonat a vectorului n-dimensional x, iar funcia g(x) este transformata
Fourier a funciei
~
g (x).
Un exemplu cu aplicaii practice importante, din punct de vedere al implementrii
hardware VLSI, este alegerea urmtoarei funcii:

( )
~
g s
s
=
+
1
1
2
(8.81)

care conduce la funcia Green:

( ) G e e e
x
i
n x
i
i
i
n
L
x
x
= =

=

[
=
' 1
1 1
(8.82)

Calculul normei L
1
a vectorului x se face mult mai uor dect norma Euclidian L
2
, de
aceea n aplicaiile practice acest lucru este de preferat. Dar, deoarece funcia Green G(x)
(8.81) nu este suficient de neted (vezi Fig. 8.5) , performanele sale nu sunt foarte bune,
depinznd de aplicaia concret.


232

Fig. 8.5: Graficul funciei RBF ( ) G e
L
x
x
=

1
.



C. Stabilizatori aditivi


Dup cum am vzut mai nainte, putem s derivm schemele de aproximare de tip
produs tensorial n contextul cadrului general al teoriei regularizrii, i deci al calculului
neuronal. n cele ce urmeaz, vom vedea c i schemele de aproximare aditive se pot ncadra
n acelai cadru general al calculului neuronal.
Printr-o schem de aproximare aditiv vom nelege o funcie aproximant de forma:

( ) ( ) f f x
i i
i
n
x =
=

1
(8.82)

unde f
i
reprezint funcii reale de o singur variabil i care vor fi denumite n continuare
componentele aditiveal funciei f, iar x
i
a i - a component a vectorului x.
Modele aditive de aproximare de forma de mai sus (8.82) sunt ntlnite mai ales n
statistic [92]. Aceste modele aditive de aproximare sunt eficiente deoarece, fiind o
compunere aditiv de funcii reale unidimensionale, au o complexitate sczut, i o trstur
foarte important, ntlnit de fapt la modelele lineare, i anume, aceea de a putea studia
separat influena diferitelor variabile.
Pentru a obine un astfel de model de aproximare aditiv, din punct de vedere al
calculului neuronal, va trebui s alegem un stabilizator corespunztor, i anume:


233
( ) ( ) G g x
i i
i
n
x =
=

o
1
(8.83)

unde o
i
e R sunt parametrii reali fixai.

De fapt o astfel de alegere a stabilizatorului va duce la o schem de aproximare
aditiv, ca aceea din (8.82), mai precis de forma:

( )
( )
f x G x x
i i j i j
j
N
=
=

o |
1
(8.84)

Componentele aditive nu sunt independente, deoarece apare o singur mulime de
coeficieni { } N i
i
, , 2 , 1 = eR | . Va trebui s scriem stabilizatorul n forma (8.49), unde
funcia ( )
~
G s este transformata Fourier a funciei Green G(x).
Pentru a simplifica deduciile s considerm cazul bidimensional n = 2, urmnd a
generaliza rezultatele obinute pentru cazul oarecare. Atunci putem scrie [80]:

( ) ( ) ( ) ( ) ( )
~
~ ~
G g s s g s s s = + o o o o
1 1 2 2 2 1
(8.85)

Dac considerm stabilizatorul (n cazul n = 2):


| |
( )
( ) ( )
u f d
f
g s e g s e
s s
n
=
+

|
\

|
.
|
|
\

|
.
|
}
s
s c
o o
c c
~
~ ~
2
1 1 2 2
2
2
1
2
R
(8.86)

Acest stabilizator va conduce la o funcie Green de forma:

( ) ( ) ( ) G x y g x e g y e
y x
, = +

o o
c c
1 2
2 2 2 2
(8.87)

S presupunem c tim a priori c forma funciei de aproximat f este aditiv, adic de
forma (8.82). Atunci, vom aplica metoda regularizrii prin aplicarea unei restricii de
netezime asupra funciei nu ca un tot unitar, ci asupra fiecrei componente aditive, aplicnd o
funcional de regularizare de forma:


| | ( )
( )
( )
H f y f x d
f
g
i j i
j
n
i
i
R
i
n
i
N
n
=
|
\

|
.
| +
= = =

}

1
2
2
1 1
1

o
s
s
s
~
(8.88)

unde parametrii o
i
sunt parametri pozitivi, care permit impunerea a diferite grade de netezime
asupra diferitelor componente aditive.
Prin minimizarea funcionalei de mai sus, nelund n considerare eventualii termeni ce
corespund spaiului nul, obinem:

( ) ( ) f c G
i i
i
N
x x x =

' 1
(8.89)

unde:
234

( ) ( )
G g x x
i j j i
j
n
x x =
=

o
1
(8.90)

Introducem pentru coeficieni notaia:

c
c
i
j i
j
=
o
(8.91)

obinem pentru o component aditiv forma:

( ) ( )
f x c g x x
i i i
j
i j
j
N
=
=

1
(8.92)

Componentele aditive nu sunt independente datorit faptului c coeficienii o
i
sunt
fixai. Evident, independena componentelor aditive poate fi obinut prin anularea condiiei
de fixare impus coeficienilor o
i
.


VI I I .3. Proprietatea de cea mai bun aproximant


Problema Aproximrii a fost formulat n Definiia 8.1, ea coninnd urmtoarea
formulare: dac f(x) este o funcie continu i F(x,w) este o funcie aproximant ce depinde
continuu de parametrii w e P i de variabila x, problema aproximrii este determinarea
parametrilor w*, astfel nct:

( )
| |
( )
| | ( ) F f F f w x x w x x w P *, , ( ) , , ( ) , s e

Dac problema aproximrii are soluie, ea se numete cea mai bun aproximant.
Dup cum vom vedea, existena celei mai bune aproximante este determinat de clasa de
funcii creia i aparine funcia aproximant F(x,w).

Am vzut din cele prezentate pn acum c nvarea unei reele neuronale pe baza
unei mulimi de exemple de antrenament este echivalent cu problema aproximrii unei
funcii necunoscute f(x) pe baza unei mulimi de puncte discrete T = (x, f(x)) numit mulime
de antrenament.
Pentru a putea caracteriza metodele de aproximare, deci i reelele neuronale, trebuie
luat n considerare problema fundamental a reprezentrii:

Problema reprezentrii: care mulime de funcii poate fi aproximat de funcia aproximant
F i ct de precis poate fi realizat aceast aproximare?

Din rezultatele Cap. VII am vzut c reele neuronale de tip PMS pot aproxima orict
de bine o funcie continu, dac avem un numr nelimitat de neuroni n stratul ascuns. Din
punct de vedere matematic acest lucru nseamn c mulimea funciilor ce poate fi calculat
de acest tip de reele neuronale este dens. Aceast proprietate nu este ns caracteristic
numai pentru reelele neuronale ci i pentru polinoame algebrice, fapt dovedit prin intermediul
235
clasicei Teoreme a lui Weierstrass. Pentru a caracteriza ns "calitatea" unei reele neuronale
nu este suficient ca aceast s satisfac Teorema lui Weierstrass. Aproape orice reea
neuronal de tip PMS ca cea din Fig. 7.1, avnd o funcie de activare neliniar pentru neuronii
stratului ascuns va satisface aceast proprietate a lui Weierstrass. Deoarece, majoritatea
schemelor de aproximare, printre care i reelele neuronale, satisfac proprietatea lui
Weierstrass, avem nevoie de o caracteristic suplimentar. i literatura de specialitate n
domeniul teoriei aproximrii reflect aceast problem, ncercnd s accentueze alte
proprieti ale schemelor de aproximare. O astfel de proprietate, prin care vom ncerca o
caracterizare suplimentar a reelelor neuronale, privite ca i scheme de aproximare, va fi
proprietatea de cea mai buna aproximant, pe care o vom nota BAP (Best Approximation
Property).

ntr-o definiie neformal putem s spunem despre o schem de aproximare c
satisface BAP dac n mulimea funciilor aproximante (n cazul reelelor neuronale aceasta
poate fi { } R ) , ( e w w x F ) exist o funcie unic ce are distana minim fa de o mulime mai
larg de funcii u.

S considerm mulimea general a funciilor ce poate fi calculat cu ajutorul unui
PMS avnd un singur strat ascuns, un singur neuron n stratul de ieire, ca acela din Fig. 7.1:

( ) ( ) ( ) ( )
)
`

e e _ = e =

=
N R n N U C H U H v f U C f
N
i
i
n
i i
, , , ,
1
x x N (8.93)

unde funciile H
i
sunt de form ( ) H G
i i
= x w ; , w
i
reprezint vectorii triilor sinaptice ce
leag neuronii din stratul de intrare de intrare de al i - lea neuron din stratul ascuns.

Dac alegerea funciilor H
i
este corespunztoare, atunci mulimea de funcii N poate fi
dens n spaiul funciilor continue C(U).

Dac funciile H
i
sunt polinoame algebrice, densitatea mulimii N este o consecin
trivial a Teoremei lui Stone-Weierstrass. Dac funciile H
i
sunt funcii Green centrate n
punctele x
i
, atunci regsim reelele neuronale de tip PMSR pe care le vom studia amnunit n
capitolul urmtor, i care am vzut c pot aproxima orict de bine o funcie continu pe un
domeniu compact din R
n
.

S ncercm n cele ce urmeaz s dm o interpretare matematic precis noiunii de
BAP, cu care dorim s caracterizm reelele neuronale [81], [158].

Def. 8.7: Fie funcia f e u i mulimea de funcii A c u. Se numete distan de la funcia f
la mulimea A urmtoarea expresie:

( ) a f f d
a
=
eA
A inf , (8.94)

Def. 8.8: Dac exist un element a
0
e A astfel nct:

( ) A ,
0
f d a f = (8.95)

acest element se numete cea mai bun aproximant a lui f de ctre A.

236
Def. 8.9: Mulimea de funcii A se numete mulime de existen dac, pentru orice funcie
f e u, exist cel puin o cea mai bun aproximant a lui f de ctre A.

Obs. 8.3: Despre o mulime A care este o mulime de existen vom putea spune c satisface
de asemenea i BAP (Proprietatea de cea mai bun aproximant).

Def. 8.10: Mulimea de funcii A se numete mulime de unicitate dac, pentru orice funcie
f e u, exist cel mult o cea mai bun aproximant a lui f de ctre A.

Def. 8.11: Mulimea de funcii A se numete mulime Cebev dac este o mulime de
existen i o mulime de unicitate.

Dup aceste noiuni introductive, putem formula problema aproximrii prin prisma
BAP:

Def. 8.12 (problema aproximrii): Fiind dat funcia f e u i mulimea A c u s se gseasc
o cea mai bun aproximant a lui f de ctre A.

Este evident c problema aproximrii are soluie dac i numai dac mulimea A este o
mulime de existen.
Vom studia n cele ce urmeaz proprietile unor mulimi ce posed proprietatea BAP,
i vom aplica aceste proprieti la reele neuronale pentru a putea s le nelegem mai bine din
punct de vedere al teoriei aproximrii [81].

Propoziia 8.1: Orice mulime de existen este nchis.

Demonstraie: Fie mulimea A _ u o mulime de existen, i s presupunem prin reducere
la absurd c nu este nchis.

Atunci trebuie s existe cel puin un ir de elemente { }
a
n
n N e
aparinnd mulimii A
care converge la un element ce nu aparine mulimii A. Cu alte cuvinte, putem scrie:

{ } ( ) 0 , lim : \ , , = e - e -

e n
n
n n n
a f d f a a A A
N


Acest lucru nseamn c ( ) 0 , = A f d i deoarece mulimea A este o mulime de
existen rezult c exist un element a
0
e A astfel nct:

f a =
0
0

Din proprietile normei vom avea c f = a
0
, ceea ce este absurd deoarece f e A i a
0

e A. Aceasta contrazice ipoteza fcut c mulimea A nu este nchis. Rezult c mulimea A
este nchis.

Reciproca acestei propoziii nu este n general adevrat, adic nu este suficient ca o
mulime s fie nchis pentru ca ea s fie o mulime de existen. Teorema de mai jos va
conine condiia de suficien [49]:

Teorema 8.4: Fie mulimea A o mulime compact ntr-un spaiu metric u. Atunci mulimea
A este o mulime de existen.

237
Demonstraie: Pentru orice funcie f e u, putem defini funcia:

( ) ( ) a f d a H H , , : =
+
R A

Funcia H este o funcie continu pe mulimea compact A. Dup cum se tie ns,
conform teoremei lui Weierstrass, o funcie continu pe o mulime compact ntr-un spaiu
metric i atinge supremul i infimul pe acea mulime. Atunci funcia H i atinge infimul pe
mulimea compact A, ceea ce conform Definiiei 8.9 nseamn c mulimea A este o mulime
de existen.

Din punct de vedere al teoriei aproximrii, o reea neuronal este o reprezentare a unei
mulimi A de funcii parametrice, iar algoritmul de nvare a reelei neuronale corespunde de
fapt algoritmului de cutare a celei mai bune aproximante a unei funcii f ctre A. n general,
mulimea A nu are proprietatea BAP, doar dac ea satisface o serie de proprieti adiionale,
cum ar fi proprietile stabilite de Teorema 8.4.
De aceea, vom ncerca s analizm care reele neuronale satisfac aceste proprieti.


VIII.3.1. Aplicaia 1: Reele neuronale de tip BP -
BackPropagation


Reelele neuronale de tip BP - BackPropagation sunt cele mai populare reele
neuronale folosite n aplicaii. De fapt, este vorba de o arhitectur de tip PMS cu cel puin un
strat ascuns, caracteristic fiind pentru reelele neuronale de tip BP algoritmul de nvare,
numit BackPropagation (prezentat pe larg n IV.2.1). De asemenea, se consider ca reelele
neuronale de tip BP au ca funcie de activare a neuronilor din straturile ascunse, o funcie
sigmoidal (2.4), numit i funcie logistic, ce are urmtoarea expresie:

( ) o x
e
x
=
+

1
1
(8.96)

S considerm clasa reelelor neuronale de tip BP, cu un singur strat ascuns, cu un
unic neuron n stratul de ieire, cu o arhitectur asemntoare cu PMS din Fig. 7.1. Funcia de
activare a celor N neuroni din stratul ascuns este funcia logistic de mai sus (8.96). Spaiul
funciilor u, care trebuie aproximate va fi ales spaiul funciilor continue C(U), U _ R
n
.
Atunci mulimea funciilor care poate fi calculat de aceste reele neuronale de tip BP este:

( ) ( )
( )
)
`

e e _
+
= e = E

=
+
m
i
i i
n n
i n
v U
e
v f U C f
i
1
, , , ,
1
1
R R R
i
i
u
u
w x
xw
(8.97)

Vom formula n cele ce urmeaz rezultatul cel mai important din punct al studiului
teoretic i aplicativ al calculului neuronal [46]:

Propoziia 8.2: Mulimea E
n
nu este o mulime de existen, oricare ar fi n > 2.

Demonstraie: Dup cum am vzut n Teorema 8.4, o condiie necesar pentru ca o mulime
s fie o mulime de existen este ca acea mulime s fie nchis. De aceea, pentru a dovedi c
238
mulimea E
n
nu este o mulime de existen este suficient s artm c nu este o mulime
nchis. Pentru aceasta, vom arta c un punct de acumulare a mulimii E
n
nu-i aparine.

S considerm urmtoarea funcie:

( )
( ) ( ) ( )
|
.
|

\
|
+

+
=
+ + + o u u
o
o
wx wx
x
e e
f
1
1
1
1 1
(8.98)

Evident avem f
n o
eE , oricare ar fi n > 2. Efectund un calcul simplu, obinem urmtoarea
limit:

( ) ( )
( ) ( )
lim
cosh
o
o
u

=
+ +
0
1
2 1
f g x x
wx
(8.99)

Oricare ar fi n > 2 funcia g de mai sus reprezint un punct de acumulare a mulimii E
n
, dar nu
aparine mulimii E
n
. Rezult c mulimea E
n
nu este nchis, deci nu poate fi o mulime de
existen.


VIII.3.2. Aplicaia 2: Reele neuronale de regularizare


S considerm mulimea de reele neuronale de tip PMSR care se obin ca soluie a
problemei de regularizare (8.4), formulat ntr-un paragraf anterior:

( ) ( )
)
`

e c = e = +

=
m
i
i
n
i i n
U f U C f
1
, , ) ( R R | | | x x (8.100)

unde funciile ( ) ( ) |
i i
G x x x = ; reprezint funcii Green centrate n punctele x
i
e R
n
.

Ca i caz particular putem considera funciile RBF (Radial Basis Functions), cnd
avem:

( )
( )
|
i i
G x x - x = (8.101)

ntrebarea pe care ne-o punem n continuare este dac aceast mulime de funcii
aproximante asociate reelelor neuronale de regularizare posed proprietatea BAP ?

Rspunsul la aceast ntrebare este pozitiv, fiind exprimat prin propoziia:

Propoziia 8.3: Mulimea +
n
este o mulime de existen, oricare ar fi n > 1.

Demonstraie: Fie funcia f un element fixat al spaiului funciilor continue C(U) i a
0
un
element arbitrar al mulimii +
n
.
Ne punem problema s determinm cel mai apropiat punct al mulimii +
n
de funcia f. Acest
punct, dac exist, trebuie s se gseasc n mulimea:

239

{ }
a a f a f
n
e s +
0
(8.102)

Conform cu [158], aceast mulime este nchis i mrginit, deci este compact. Aplicnd
Teorema 8.4 rezult c mulimea +
n
este o mulime de existen.

n funcie de norma definit pe spaiul funciilor continue C(U), cea mai bun
aproximant, n ipoteza c exist, poate fi unic sau nu. Pentru a studia unicitatea celei mai
bune aproximante s definim noiunea de convexitate strict.

Def. 8.13: Un spaiu normat se numete strict convex, dac:

( ) f g f g f g = = + = =
1
2
1 (8.103)

Interpretarea geometric a definiiei de mai sus: un spaiu este strict convex dac sfera
unitar nu conine segmente de dreapt pe suprafaa sa.

Propoziia 8.4: Mulimea +
n
este o mulime Cebev dac spaiul normat al funciilor
continue C(U) este strict convex.

Demonstraie: Am demonstrat mai nainte c mulimea +
n
este o mulime de existen.
Pentru a dovedi c este o mulime Cebev, adic unicitatea celei mai bune aproximante,
trebuie s mai artm c mulimea +
n
este i o mulime de unicitate. Vom demonstra acest
lucru prin reducere la absurd.
S presupunem c exist dou funcii f
1
i f
2
aparinnd de +
n
ce reprezint cea mai bun
aproximant ctre o funcie g e C(U). S mai notm cu distana de la g la mulimea +
n
.
Aplicnd inegalitatea triunghiului, vom obine:

( )
1
2 1 2
1
2 1
1
2 2
f f g f g f g + s + (8.104)

Deoarece spaiul +
n
este un spaiu vectorial este evident c ( )
1
2 1 2
f f
n
+ e+ iar din definiia
lui rezult c: ( )
1
2 1 2
f f + > . De aici obinem:
- dac = 0, atunci f
1
= f
2
= g;

- dac = 0, atunci putem scrie relaia (8.104) sub forma:


1
2
1
1 2
f g f g
+

(
=

(8.105)

Acest lucru nseamn c vectorii
f g
1

,
f g
2

i semi-suma lor vectorial au norma


unitar, i deoarece condiia de strict convexitate este satisfcut, rezult c f
1
= f
2
.

Conform cu literatura de specialitate [166], spaiul funciilor continue C(U) nzestrat
cu norma L
p
, 1 < p < este strict convex. Atunci, putem afirma c mulimea reelelor
neuronale de regularizare posed proprietatea BAP, avnd un unic element cu proprietatea
BAP.


240
241

IX. Aplicaiile teoriei regularizrii la reelele neuronale


n acest capitol ne propune s aplicm elementele teoretice deduse n capitolul anterior
n contextul calculului neuronal. Am vzut analogia dintre problema regularizrii - care este
de fapt o problem de teoria aproximrii - i problema nvrii supervizate a unei reele
neuronale, care este o problem fundamental a calculului neuronal. Pe baza soluiei
problemei regularizrii vom construi o reea neuronal general de tip PMS, cu un singur strat
ascuns, pe care o vom numi Perceptron Multi Strat Regularizat - PMSR. Vom ncerca s
gsim soluii viabile care s in seama de dimensionalitatea datelor de antrenament precum i
de distribuia particular a acestor date de antrenament. De asemenea, vom face un studiu
practic, prin construcia unor reele neuronale efective, a cror performane vom ncerca s le
subliniem.


I X.1. Reele neuronale de tip PMSR


IX.1.1. Construcia reelei neuronale de tip PMSR


n capitolul anterior, n VIII.2.3, am studiat problema regularizrii ca o problem de
minimizare a unei funcionale. Am vzut cu acest prilej c soluia general a acestei probleme
poate fi exprimat sub forma (8.40):

( ) ( ) ( ) f w G d
i i
i
N k
x x x x = +
= =

;
1 1
o o
o


unde am notat cu
{ }

o
o=1
k
o baz a spaiului nul k-dimensional al termenului de regularizare
Pf
2
, cu d
o
o mulime de coeficieni reali, coeficienii necunoscui
( ) ( )
w
f
i
i
i i
=

=
z x

, ,2, 1 ,N.

Am vzut de asemenea n VIII.2.3.5., c n funcie de clasa stabilizatorului folosit
putem avea spaiul nul al termenului de regularizare vid sau nu. n ceea ce ne privete studiile
noastre aplicative se vor baza pe clase de stabilizatori cu spaiul nul vid, ceea ce nseamn c
fr a reduce generalitatea vom considera soluia problemei regularizrii de forma (8.38),
adic:

( ) ( ) f w G
i i
i
N
x x x =
=

;
1


242
G(x-x
1
)
Pentru a implementa aceast soluie a problemei regularizrii sub forma unei reele
neuronale, s ne reamintim faptul c pentru a aproxima o funcie continu cu o precizie dorit
este suficient s avem un PMS cu un singur strat ascuns (Cap. VII).

nsi din forma soluiei problemei regularizrii se vede clar c tipul de reea
neuronal creia i corespunde este de tip PMS cu un singur strat ascuns. Deci, reeaua
neuronal care corespunde soluiei problemei regularizrii este un PMS de o arhitectur
special, reea neuronal pe care o vom numi Perceptron MultiStrat Regularizat - PMSR,
reprezentat n Fig. 9.1:



















Figura9.1: Arhitectura reelei neuronale PMSR.

S analizm reeaua neuronal de mai sus:

- avem o arhitectur de reea neuronal de tip PMS cu un singur strat ascuns:

+ stratul de intrare conine n neuroni de intrare, n fiind egal cu
dimensionalitatea vectorului de intrare
( ) ( ) ( )
( )
x
i i i i
n
x x x =
1 2
, , , . Termenul
Bias reprezentat n startul de intrare cu un cercule rou poate sau nu s fie
luat n considerare explicit sau implicit, conform consideraiilor fcute n
Cap. II.;
+ stratul ascuns avnd un numr de neuroni egal cu dimensionalitatea
mulimii de antrenament ( ) ( ) { }
T f i N
i i
= = x x , ,2, , 1 . Funciile de
activare ale neuronilor din stratul ascuns sunt toate diferite. Al k -lea neuron
are ca funcie de activare funcia Green centrat n punctul x
k
: ( ) G
k
x x ;
+ stratul de ieire constituit dintr-un singur neuron cu funcie de activare
liniar sau dup cum vom vedea n continuare, o funcie de activare
ponderat a valorilor generate de neuronii din stratul ascuns.

- triile sinaptice:

( )
x
i
1

( )
x
i
2

( )
x
i
3

( )
x
i
k

( )
x
i
n

1
+
y
i
= f(x
i
)
w
1

w
2

w
k

w
N

G(x-x
2
)
G(x-x
k
)
G(x-x
N
)
243
+ triile sinaptice dintre stratul de intrare i stratul ascuns sunt incluse n
forma funciilor de activare a neuronilor din stratul ascuns. Aceste trii
sinaptice nu sunt explicitate direct;
+ triile sinaptice dintre stratul ascuns i stratul de ieire sunt reprezentate de
vectorul ( ) w = w w w
N 1 2
, , , .

innd cont de modul de operare al unei reele neuronale de tip PMS, vom obine
pentru reeaua noastr PMSR, ca valoare de ieire:

( ) ( ) f w G
i i
i
N
x x x =
=

;
1
(9.1)

adic tocmai aceeai funcie care este soluia problemei de regularizare.

n situaii speciale, dup cum artat n VIII.2.3.4., parametrii necunoscui w pot fi
determinai pe baza unui calcul direct (8.48):

( ) w G I z = +

1


n practic ns, o astfel de situaie este aproape imposibil, cci sunt foarte rare
cazurile cnd matricea ( ) G I +

1
este inversabil sau de dimensiuni care s poate permit un
calcul real.
De asemenea, nu trebuie s uitm influena numrului de date de antrenament N, care
poate implic o complexitate computaional ce nu poate fi rezolvat, problema noastr
cptnd doar un caracter teoretic. Evident ns, scopul nostru nu este numai teoretic, ci
obinerea unor metode de aproximare-interpolare alternative bazate pe calculul neuronal.


IX.1.2. Reducerea dimensionalitii reelei neuronale PMSR


Din soluia problemei regularizrii (9.1) obinem o reea neuronal cu N neuroni n
stratul ascuns, N reprezentnd dimensionalitatea mulimii de antrenament. Din aceast cauz,
complexitatea calcului necesar a optimiza parametrii reelei neuronale PMSR pe baza
procesului de nvare supervizat poate fi prohibitiv. De aceea, trebuie ca pentru probleme
caracterizate printr-o dimensionalitate mare N a mulimii de antrenament s gsim o soluie
aplicabil n practic, care s pstreze calitatea unei reele neuronale de tip PMSR.
Pentru a rezolva aceast problem vom aborda dou soluii distincte, una bazat pe o
strategie de nvare supervizat i una bazat pe o strategie mixt: o etap de nvare
nesupervizat, urmat de o etap de nvare supervizat.


I X.1.2.1. Soluia clasic - nvare supervizat


Ideea reducerii dimensionalitii reelei neuronale PMSR are la baz o reducere a
numrului centrelor de expansiune x
i
, care reprezint de fapt datele de intrare corespunztoare
mulimii de antrenament T. n variant clasic, aceast reducere se face prin alegerea a K noi
centre de expansiune t
k,
, k = 1, 2, , K, unde K < N [24].
244
Vom obine astfel urmtoarea reea neuronal de tip PMSR:

( ) ( ) F v G
i i
i
K
x x t =
=

;
1
(9.2)

unde coeficienii { } K i v
i
, , 2 , 1 = eR i centrele de expansiune { } K i
n
i
, , 2 , 1 = eR t sunt
necunoscui.

Trebuie s subliniem c prin aceast metod am introdus o mulime nou de
necunoscute, i anume, centrele de expansiune { } K i
n
i
, , 2 , 1 = eR t . De aceea, metoda
clasic va fi eficient doar n situaia n care se obine ntr-adevr o reducere a
dimensionalitii calculului, ceea ce presupune satisfacerea condiiei:

K nK N + << (9.3)

unde K + nK reprezint:

- K coeficieni necunoscui { } K i v
i
, , 2 , 1 = eR - care corespund triilor sinaptice
dintre stratul ascuns i stratul de ieire;

- nK reprezint cele n coordonate ale celor K centre de expansiune
{ } K i
n
i
, , 2 , 1 = eR t - care corespund ntr-o form implicit triilor sinaptice dintre
stratul de intrare i stratul ascuns.

Pentru ca reeaua neuronal PMSR (9.2) s reprezinte o soluie optimal a problemei
regularizrii, impunem urmtoarea condiie relativ la mulimea de parametri
( ) { } K i v
n
i i
, , 2 , 1 = e R R ,t :


| |
| |
c
c
c
c
H F
v
i K
H F
i K
i
i
= =
= =
0 1
0 1
, ,2, ,
, ,2, ,

t
(9.4)

Soluia particular a problemei de mai sus depinde de operatorul stabilizator folosit.
De aceea, vom ncerca s considerm un exemplu ct mai general de stabilizator [159] .

Fie stabilizatorul definit astfel:

( )
( )
P f d a P
i
i
i
n 1
2 2
0
=
=

}
x x
R
(9.5)

unde { } , 2 , 1 = e i a
i
R este o mulime de coeficieni reali, iar P este un operator ce satisface
proprietile:

P P
i i i i 2 2 2 1 2
= V = VV
+
; (9.6)

V
2
este operatorul Laplacian.
245

Atunci stabilizatorul este invariant translaional, iar funcia Green va satisface
ecuaia diferenial n sens distribuional:

( ) ( ) ( ) V =
=

1
2
0
i
i
i
i
a G x x o (9.7)

Aplicnd transformata Fourier ambilor membrii ai ecuaiei de mai sus obinem:

( ) ( ) a G
i
i
i
e e e =
=

1
0
(9.8)

Aplicarea transformatei anti-Fourier asupra funciei G(e) conduce la:

( )
( )
( ) G d
e
a
d e dV
i
j
j
j
i
n n
x
x
x
=

} }
e
e e
e e
e
e
0
R R
(9.9)

unde V(e) este o funcie mrginit i nedescresctoare dac a
0
= 0. Aplicarea teoremei lui
Bochner [22], ne va conduce la concluzia c funcia Green G(x) este pozitiv definit. De
asemenea, condiia a
0
= 0 este esenial n acest calcul, deoarece, aa cum este menionat n
[213], aceasta este o condiie necesar i suficient pentru ca funcia Green s convearg
asimptotic la zero.
Dac particularizm coeficienii:

2 , 0 1 , 1
1 0
> = = = i a a a
i
si (9.10)

n acest caz funcia Green este unidimensional, devenind transformata Fourier a
funciei
1
1
2
+e
, avnd forma:

( ) G e x
x
(9.11)

Deoarece funcia de mai sus nu este foarte neted, reflectnd faptul c stabilizatorul
conine doar derivata de ordinul 0 i 1, obinerea unei funcii Green mai netede presupune
folosirea unui numr mare (ideal un numr infinit) de coeficieni a
i
nenuli. Un exemplu
potrivit este [159]:


( )
a
i
i N
i
= e
1
2 !
, (9.12)

innd seama de identitatea cunoscut:


( )
( )
e
e
2
0
2
i
i
i !
cosh =
=

(9.13)

vom obine funcia Green foarte neted:

246
( )
( )
G x
x
=
1
cosh
(9.14)

Un alt exemplu interesant pentru alegerea coeficienilor a
i
este [213]:

a
i
i
i
i
i
= e
o
2
2 !
, N (9.15)

care genereaz o funcie Green de tip Gaussian multidimensional de varian o.
Interpretarea fizic a soluiei este simpl, dac privim variana o = o(t) ca o funcie de
timpul t, atunci soluia va satisface ecuaia cldurii:


( )
( )
c o
co
o
f
f
x
x
,
, = V
2
(9.16)

cu condiiile la limit:

( ) f z
i i
x ,o = (9.17)

Considernd parametrul regularizrii = 0, soluia problemei regularizrii poate fi
interpretat fizic ca fiind temperatura procesului de propagare a cldurii ntr-o bar
conductibil, care este n punctele x
i
n contact cu o surs de cldur. Variana o va reprezenta
timpul de difuzie a cldurii.

Revenind la stabilizatorul (9.5) al i - lea termen al acestui stabilizator poate fi scris pe
baza formulei lui Green [35]:

( )
( )
( ) ( ) ( ) d P f d f P f
i i i
n n
x x x x x
2
2
1 =
} }
R R
(9.18)

substituind formula de mai sus n stabilizatorul (9.5), i innd cont de proprietatea (8.25),
obinem:

( ) ( ) P f d f P P f
R
n 1
2
1 1
=
-
}
x x x (9.19)

Dac nlocuim funcia f cu funcia F (9.2) n relaia de mai sus, atunci fiecare termen
ce conine funcia Green G(x) va genera o funcie delta o, termenul integral transformndu-se
ntr-o sum finit:


( )
P f v v G
i j i j
i j
K
1
2
1
=
=

t t ;
,
(9.20)

Introducnd notaiile matriciale:

( ) ( ) K N G G
j i ij
= ordinul de matrice ;t x (9.21)

( ) ( ) K K G g
j i ij
= ordinul de matrice ;t t (9.22)

Atunci putem scrie operatorul de regularizare (9.4) sub forma matricial:
247

| | ( )
H F G G g G
T T
= + + v v v z z z 2 (9.23)

Operatorul de mai sus este o form ptratic n raport cu coeficienii necunoscui v
i
,
astfel c minimizarea n raport cu aceti coeficieni este relativ simpl. Pentru fiecare
mulime fixat de centre de expansiune { } K i
n
i
, , 2 , 1 = eR t , mulimea optimal de trii
sinaptice { } K i v
i
, , 2 , 1 = eR se obine astfel:


( )
v z = +

G G g G
T T

1
(9.24)

Evident, funcia aproximant F (9.2) nu este identic cu funcia de aproximat f,
egalitatea pstrndu-se n centrele de expansiune { } K i
n
i
, , 2 , 1 = eR t :


( )
( )
( ) ( )
F
z F
G f
j
i i
j i
i
N
j
t
x
t x t =

=
=


;
1
(9.25)

Pn n acest moment am analizat o metod de reducere a dimensionalitii reelei
neuronale de tip PMSR pe baza aproximrii soluiei problemei regularizrii cu funcia
(reeaua neuronal) F(x) definit de formula (9.2). Acest proces de aproximare are n vedere
aproximarea unei funcionale de mai multe variabile H[F] care n general nu este convex.
Cea mai simpl metod de a rezolva problema (9.4) este o metod de tip gradient
descendent, adic dac folosim terminologia din tehnica calcului neuronal, un algoritm de
nvare supervizat de tip BackPropagation sau o metod mbuntit de tip gradient
conjugat (IV.2.2).

De data aceasta, pentru a evita punctele de minim local caracteristice strategiilor de
nvare bazate pe tehnici de optimizare de tip gradient, vom privi sistemul de ecuaii (9.4) ca
pe un sistem dinamic, unde valorile parametrilor { } K i
n
i
, , 2 , 1 = eR t i
{ } K i v
i
, , 2 , 1 = eR reprezint coordonate ale punctelor fixe ale sistemului dinamic:


| |
| |
v
H F
v
i K
H F
i K
i
i
i
i
.
, ,2, ,
.
, ,2, ,
= =
= =
q
c
c
q
c
c
1
1

t
t
(9.26)

parametrul q reprezint gradul de variaie temporal a problemei, determinnd rata de
convergen ctre punctul fix, fiind echivalent din punct de vedere al calculului neuronal cu
rata de nvare.
Pentru a depi problema neconvexitii funcionalei H[F], care genereaz mai multe
puncte fixe pentru sistemul dinamic (9.26), vom folosi tehnica gradientului descendent
stohastic.
Prin aceast tehnic a gradientului descendent stohastic ecuaiile sistemului dinamic
(9.26) devin ecuaii stohastice de tip Langevin, ecuaii folosite pentru a modela relaxarea
unui sistem fizic ctre punctele fixe - de echilibru, n prezena unui zgomot perturbator [203],
[130], [154] .
Procesul de nvare va fi exprimat prin intermediul urmtoarelor ecuaii stohastice:

248

| |
( )
| |
( )
v
H F
v
t i K
H F
t i K
i
i
i
i
i
i
.
, ,2, ,
.
, ,2, ,
= + =
= + =
q
c
c

q
c
c

1
1

t
t
(9.27)

variabilele
i
i
i
reprezint zgomotul perturbator, fiind numite zgomot alb, deoarece au
media i variana nul. Ele mai au proprietatea [159]:

( ) ( ) ( ) ( ) ( ) o
i j i j ij
t t t t T t t ' = ' = ' 2 (9.28)

parametrul T msurnd puterea zgomotului, fiind echivalent cu temperatura unui proces fizic.
Rezolvarea sistemului de ecuaii se poate face printr-un procedeu Monte-Carlo, mai precis de
tip Metropolis [141] . Aceasta nseamn de fapt descreterea varianei zgomotului n timpul
procesului de relaxare, fiind similar cu metoda revenirii simulate (simulated annealing).
Vom lua n considerare un caz mai simplu, i anume cazul n care funcia Green
corespunztoare este o funcie de tip radial (VIII.2.3.5) i parametrul de regularizare este
nul, adic = 0. Atunci putem scrie funcia Green sub forma:

( )
( )
G h x t x t ; =
2
(9.29)

Dac notm eroarea de aproximare:

( ) ( ) A
i i i
f F = x x (9.30)

putem rescrie termenii gradient din sistemul de ecuaii (9.27):


( )
c
c
H
v
h
i
j j i
j
N
=
=

2
2
1
A x t , i = 1,2,...,K (9.31)


( )
( )
c
c
H
v h
i
i j j i
j
N
j i
t
x t x t = '
=

4
2
1
A , i = 1,2,...,K (9.32)

Egalnd cu zero ecuaia (9.32), obinem c centrele de expansiune t
i
verific n
punctele fixe urmtoarea relaie:


( )
( )
t
x t
x t
i
j j i i
i
N
j j i
i
N
h x
h
i K =
'
'
=
=
=

A
A
2
1
2
1
1 , ,2, , (9.33)

Centrele de expansiune optimale t
i
reprezint o medie ponderat a datelor de intrare x
i
.
Ponderea
( )
p h
ij j j i
= ' A x t
2
ce corespunde punctului x
j
,

pentru un centru de expansiune
dat t
i
, are o valoare mare dac eroarea de aproximare este mare i dac funcia radial h
centrat n centrul de expansiune x
i
are o variaie rapid ntr-o vecintate a centrului de
expansiune.
249
Aceast remarc sugereaz o metod mai rapid de a gsi o mulime semi-optimal de
centre de expansiune { } K i
n
i
, , 2 , 1 = eR t . Astfel putem aduga o a treia ecuaie la sistemul
de ecuaii stohastice (9.27):


( )
c
c

H
v h
j i j i
i j
=

2
2
A x t ,
,
(9.34)

Aceasta deoarece funcia radial h depinde i de variabila zgomot , motiv pentru care
putem scrie h = h(r,), deci funcionala H trebuie minimizat i n raport cu acest parametru.

Dup cum am vzut, din arhitectura reelei neuronale de tip PMSR, la stratul de ieire
funcia de activare poate fi liniar. Putem considera i un caz mai general, cnd funcia de
activare a stratului de ieire este o funcie neliniar, inversabil, pe care o vom nota cu o.

n acest caz, vom avea funcia aproximant (reeaua neuronal de tip PMSR):

( )
( )
F v h
i i
i
K
x x t =
|
\

|
.
|
=

o
2
1
(9.35)

iar ecuaiile (9.31) i (9.32) devin:


( ) ( )
( )
c
c
o
H
v
F h
i
j j j i
j
N
= '
=

2
2
1
x x t A , i = 1,2,...,K (9.36)


( ) ( )
( )
( )
c
c
o
H
v F h
i
i j j j i
j
N
j i
t
x x t x t = ' '
=

4
2
1
A , i = 1,2,...,K (9.37)


I X.1.2.2. Soluia original - nvare nesupervizat i supervizat


Soluia clasic a problemei reducerii dimensionalitii unei reele neuronale de tip
PMSR prezint o serie de dezavantaje pe care le vom analiza i pe care vom ncerca s le
rezolvm.
Reducerea dimensionalitii reelei neuronale de tip PMSR se bazeaz pe ideea
determinrii unei mulimi noi de centre de expansiune
{ }
t
i
i K =1,2, , , de dimensionalitate
mult mai mic K << N, dect cea original
{ }
x
i
i N =1,2, , , care consider ca i centre de
expansiune punctele de intrare ale mulimii de antrenament ( ) ( ) { }
T f i N
i i
= = x x , ,2, , 1 .
Prin aceasta, soluia problemei regularizrii (8.40), i anume funcia f se poate
reprezenta sub forma:

( ) ( ) f w G
i i
i
N
x x x =
=

;
1
(9.38)

aceasta soluie este aproximat prin funcia F, reprezentat sub forma:

250
( ) ( ) F v G
i i
i
K
x x t =
=

;
1
(9.39)

Prima dificultate n construcia reelei neuronale aproximante, care corespunde
funciei F este determinarea numrului de centre de expansiune K pe care trebuie s le lum n
considerare, i a doua dificultate, care ar fi modul optim de alegere a noilor centre de
expansiune.
Chiar dac, n anumite cazuri particulare, care depind de forma particular a
stabilizatorului ales, ca de exemplu n cazul unui stabilizator de tip invariant rotaional,
suntem n stare s determinm o formul de calcul a noilor centre de expansiune (vezi (9.33)),
soluia aleas nu pare eficient deoarece ea nu ine seama deloc de distribuia punctelor de
intrare
{ }
x
i
i N =1,2, , , ci doar de forma particular a stabilizatorului. n acest fel se pierd
trsturi foarte importante care sunt exprimate prin nsi modul de distribuie a punctelor de
intrare
{ }
x
i
i N =1,2, , din mulimea de antrenament.
Soluia noastr original se va baza tocmai pe aceast idee, care va ine cont de modul
de distribuie a punctelor de intrare
{ }
x
i
i N =1,2, , , i chiar mai mult, va determina
numrul necesar K de centre de expansiune. Astfel se elimin o nedeterminat foarte
important a calculului neuronal i anume ci neuroni sunt necesari n stratul ascuns.

Strategia noastr va cuprinde:

- Pasul I - analiza distribuiei punctelor de intrare i alegerea punctelor relevante pentru
procesul de nvare. Acest lucru se va face prin intermediul favorizrii unor puncte
relevante n detrimentul altor puncte mai puin relevante.

- Pasul I I - aplicarea unui algoritm de nvare nesupervizat bazat pe tehnici de
clustering care vor determina noile centre de expansiune t
i
, precum i numrul
acestora K.

- Pasul I I I - aplicarea unui algoritm de nvare supervizat de tip BackPropagation
pentru determinarea triilor sinaptice dintre stratul ascuns i stratul de ieire.


Avantajele acestei strategii sunt cel puin urmtoarele:

- se ine cont de forma i modul de distribuie al punctelor de intrare
{ }
x
i
i N =1,2, , ,
ceea ce va simplifica foarte mult convergena i viteza de convergen a algoritmului
de nvare a reelei neuronale;

- numrul de neuroni K, din stratul ascuns al reelei neuronale F(x) se determin pe baza
unui calcul precis i nu prin ncercri empirice care pe lng faptul c consum mult
timp nu ne dau nici o garanie de a gsi o variant optim;

- deoarece noile centre de expansiune
{ }
t
i
i K =1,2, , se determin n Pasul I I ,
algoritmul de nvare supervizat de la Pasul I I I va avea de optimizat doar mulimea
de parametri
{ }
v i K
i
=1,2, , care corespund triilor sinaptice dintre stratul ascuns i
stratul de ieire. n acest fel am redus cea mai dificil faz a procesului de nvare,
251
algoritmul de nvare supervizat BP relativ la un PMS cu dou straturi la un algoritm
de nvare relativ la un PS (cu un singur strat).



IX.1.2.2.1. Pasul I


Pasul I va ncerca s analizeze forma i modul de distribuie punctelor de intrare
{ }
x
i
i N =1,2, , pe baza analizei distribuiei punctelor de intrare i alegerea punctelor
relevante pentru procesul de nvare. Acest lucru se va face prin intermediul favorizrii unor
puncte relevante n detrimentul altor puncte mai puin relevante, deoarece, de multe ori n
aplicaiile practice o serie de parametrii nu sunt altceva dect combinaii liniare a unor
parametri relevani.
De aceea, vom pstra configuraia iniial a punctelor de intrare
{ }
x
i
i N =1,2, , ,
dar le vom aplica o transformare liniar prin intermediul unei matrici ptratice
N N
eR W . n
contextul teoriei pe care am folosit-o pn n acest moment, i pe care nu o vom prsi,
deoarece ea ne asigur fundamentul matematic al corectitudinii rezultatelor obinute, acest
lucru se face considernd n loc de funcia de aproximat f (9.33), funcia aproximant F de
forma:

( ) ( ) f F x Wx = (9.40)

Condiia de netezime a funciei de aproximat f se va transfera asupra funciei
aproximante F, ceea ce se va exprima prin intermediul funcionalei | | u F ce corespunde
termenului stabilizator. Atunci funcionala de regularizare devine:

| | ( ) ( ) | | H F y F F
i i
i
N
= +
=

u
2
1
u (9.41)

unde am notat: u Wx
i i
i N = = , ,2, , 1 (9.42)

Dup cum am vzut, soluia acestei probleme a regularizrii, care solicit minimizarea
funcionalei H[F], va fi de forma:

( ) ( ) F v G
i i
i
N
u u u =
=

1
(9.43)
la care se poate aduga eventual un polinom ca termen al spaiului nul.

Atunci, soluia problemei de regularizare relativ la funcia de aproximat f poate fi
scris astfel:

( ) ( ) ( ) f F v G
i i
i
N
x Wx Wx Wx = =
=

1
(9.44)

n cazul special, care reprezint de fapt cazul cel mai des aplicat n aplicaiile practice,
schema de aproximare din relaia de mai sus devine:

252
( )
( )
f v G
i i
i
N
x x x
W
=
=

1
(9.45)

unde s-a definit urmtoarea norm ponderat:

x x W x
W
=
T
(9.46)

Prin utilizarea acestei norme ponderate funciile Green de tip Gaussian nu mai sunt
radiale sau mai corect ele sunt radiale doar n raport cu norma ponderat (9.46). Aceasta
nseamn c forma curbelor de nivel a funciilor Gaussienenu mai este circular ci eliptic,
axele elipsei nefiind paralele cu axele de coordonate.
De fapt n aceast ponderare nu matricea de ponderare W este important, ci mai
degrab matricea produs W W
T
. De aceea este suficient s considerm matricea de
ponderare ca o matrice triunghiular, folosind descompunerea Cholesky.


IX.1.2.2.2. Pasul II


Acest pas al strategiei noastre se bazeaz pe aplicarea unui algoritm de nvare
nesupervizat bazat pe tehnici de clustering care vor determina noile centre de expansiune t
i

precum i numrul acestora K.

Problema convergenei algoritmului de nvare nesupervizat competitiv ctre soluia
"optim" relativ la o problem dat este o problem dificil. Aceasta deoarece noiunea de
soluie optimal relativ la o problem de clustering nu este definit riguros, existnd
numeroase criterii n literatura de specialitate. n practic, modul de lucru este urmtorul:
prima dat se definete un algoritm i abia dup aceea se analizeaz optimalitatea sa.
Pentru o putea face un studiu al problemelor de nvare nesupervizate competitive
vom prezenta un cadru mai general, i anume studiul general al problemelor de clustering
utiliznd cea mai general teorie: algoritmi de clustering de tip K-Means [184].

Enunul problemei: Fiind dat o mulime de puncte arbitrar distribuite P = {x
1
, x
2
, ..., x
N
},
x
i
e R
n
i o mulime de ponderi ataat fiecrui punct W = {w
1
,w
2
,...,w
n
}, w
i
e R, s se
determine o submulime de puncte ce reprezint centrele clusterelor T ={t
1
, t
2
, ..., t
K
},
t
i
e R
n
care optimizeaz o anumit funcie cost
11
.

Exprimat n termeni analitici, problema formulat mai sus poate fi formulat astfel:

S se determine submulimea de puncte ce reprezint centrele clusterelor i care
minimizeaz urmtoarea funcie cost ( eroare):

E e
j
j
m
=
=

1
min (9.47)
unde:

11
Vom considera n cele ce urmeaz funcii cost de tipul metodei celor mai mici ptrate.
253
e
w
w
j
i
i I
i j
i
i I
j
j
=

e
e

x t
2
(9.48)

iar mulimea I
j
, numit mulime index este astfel definit:


{ }
I i estecentrul clusterului cel mai apropiat de P
j j i
= t (9.49)

O condiie necesar de minimum este:


c
c
c
c
e
s
e
j
j
j
j
t t
= > 0 0
2
2
i (9.50)

Minimul global pentru fiecare cluster este atins, dac fiecare centru de cluster t
i
este
centrul de greutate al clusterului {x
i
| i e I
j
}:


( )
c
c
e
w
w
j
j
i i j
i I
j
i i
i I
i
i I
j
j
j
t
x t
t
x
w
= =
=
e
e
e

2 0
(9.51)
respectiv:
; ,..., 2 , 1 , 0 2
2
2
K j w
e
j
I i
i
j
j
= > =

e
t c
c
(9.52)

Conform cu [61] calculul minimului global al funciei cost E este o problem NP-
complet. Exist n total
K
K
N
!
posibiliti de a aranja N puncte n K clustere distincte. Vom
vedea mai departe c frontierele acestor clustere formeaz o diagram Voronoi
multidimensional.

Studiul teoretic comparativ al diferiilor algoritmi de clustering nu este fezabil
deoarece rezultatele depind esenial de modul de distribuie al punctelor de intrare.

Def 9.1.: O diagram Voronoi reprezint o partiie a spaiului R
n
n regiunile R
j
ce
satisfac urmtoarea proprietate:

P
1
: () punct t
j
aparine unei singure regiuni R
j
;

P
2
:
{ }
R j k
j
n
j k
= e s = x x t x t R , ( ) . (9.53)

Interpretarea relaiei P
2
: regiunea R
j
este constituit din mulimea punctelor x e R
n

care au ca i cel mai apropiat centru de cluster pe t
j
. n aceast situaie punctele t
j
sunt
denumite puncte Voronoi.

254
Cu aceast definiie putem s reformulm definiia unei mulimi index (9.49) astfel:


{ }
I i R
j i j
= e x (9.54)

Algoritmul clasic de construcie al unei diagrame Voronoi poate fi gsit n [25] sau
[202], avnd la baz o metod secvenial de inserie a punctelor. Operaiile de inserare,
tergere respectiv de deplasare a unui punct sunt proceduri locale, adic, aplicnd una din cele
trei operaii amintite mai sus, aceasta va afecta doar o mic regiune a diagramei Voronoi,
calculul putnd fi efectuat independent de numrul punctelor diagramei Voronoi.

Cu ajutorul diagramei Voronoi poate fi construit triangulaia Delaunay [25], [202],
unind toate punctele Voronoi care au o frontier comun cu un segment de dreapt.

Algoritmul se bazeaz pe o metod de inserare secvenial adaptiv a unui nou centru
de cluster n regiunea cu cea mai mare eroare relativ la funciile e
i
ale diagramelor Voronoi
ale tuturor punctelor de intrare care au fost inserate pn n acel moment.

Descrierea simplificat a algoritmului este urmtoarea [180]:

- Pasul 1: Iniializm primul centru de cluster cu media aritmetic ponderat ale tuturor
punctelor de intrare. Regiunea corespunztoare diagramei Voronoi va fi ntregul spaiu al
punctelor de intrare.

- Pasul 2: Se determin regiunea R
e
care are eroarea cea mai mare. Mulimea punctelor de
intrare x
i
care aparin regiunii R
e
se partiioneaz n dou submulimi care vor reprezenta
dou noi clustere, pentru care se calculeaz mulimile index i punctele care reprezint
centrele noilor clustere.

Pasul 2.1: Calculm axa de coordonate k care are care mai mare varian a
proieciei:


( )
k w x t
l N
i i
l
e
l
i I
e
=

=
e

max
, ,..., 1 2
(9.55
12
)

Pasul 2.2: Separm toate punctele x
i
(i e I
e
) prin intermediul unui hiperplan
perpendicular pe a k-a ax de coordonate ce trece prin punctul t
e
, n dou
submulimi. Pentru cele dou noi submulimi calculm mulimile
index
2 1
e e
I I si i centrelem
1
i m
2
ale clusterelor astfel formate:


{ }
I i x t i I
e i
k
e
k
e
1
= s e , (9.56)


{ }
I i x t i I
e i
k
e
k
e
2
= > e , (9.58)


12
x
i
l
reprezint a l-a component a punctului de intrare n-dimensional x
i
. t
e
reprezint centrul clusterului ce corespunde
regiunii R
e
.
255
m
x
1
1
1
=
e
e

w
w
i i
i I
i
i I
e
e
(9.59); m
x
2
2
2
=
e
e

w
w
i i
i I
i
i I
e
e
(9.60)

- Pasul 3: Actualizm diagrama Voronoi:

Pasul 3.1: Se deplaseaz centrul clusterului t
e
n centrul m
1
calculat la Pasul 2.2
(9.58);

Pasul 3.2: Se insereaz un nou centru de cluster n centrul m
2
calculat la Pasul 2.2
(9.59);

Pasul 3.3: Actualizm mulimile index ale regiunilor afectate.

- Pasul 4: Pentru toate regiunile modificate:

Pasul 4.1: Se deplaseaz centrul clusterului n punctul ce reprezint media
aritmetic ponderat ale punctelor ce aparin acelei regiuni;

Pasul 4.2: Actualizm diagrama Voronoi, mulimile index i mulimile de puncte
ale regiunilor modificate.

- Pasul 5: Se repet Paii 2 - 4 pn cnd este satisfcut condiia de clustering:

s-au inserat un numr dat de centre de clustere i/sau

eroarea maxim este mai mic dect o valoare prag impus i/sau

fiecare cluster conine un numr dat de puncte de intrare;

Obs 9.1: La Pasul 2 poate fi folosit o funcie cost diferit de funcia cost E (9.47). Astfel este
posibil optimizarea unei funcii cost secundare, ca de exemplu cerina ca numrul punctelor
din clustere s fie aproximativ egal.
Obs 9.2: Dup fiecare iteraie centrele clusterelor precum i triangulaia Delauney
corespunztoare, poate fi memorat pentru o utilizare ulterioar. Mai ales, dac aplicaia este
n domeniul graficii, datele memorate pot fi folosite la o reprezentare triangular ierarhic a
suprafeei reprezentate de punctele de intrare date.

Studiul performanelor algoritmului:

Pentru a studia performanele algoritmului vom considera urmtorul caz:
- sunt date n plan 9 puncte cu ponderi egale;
- dorim s calculm punctele care reprezint centrele clusterele ce minimizeaz funcia
E (9.47);
n Fig. 9.1 avem un caz special de distribuie a punctelor, deoarece pune n eviden
urmtoarele fapte:
- minimul global nu este ntotdeauna atins dac regiunea cu cea mai mare eroare
corespunztoare este subdivizat (vezi Fig 9.1 (e));
256
- subdivizarea iniial provenit din Pasul 2 al algoritmului nu conduce ntotdeauna
(dup cum era previzionat) la un clustering optimal (vezi Fig. 6.1 (f));

Pe de alt parte ns, pentru majoritatea distribuiilor alese s-a atins minimul global,
s-au, s-a ajuns foarte aproape de el.
n Fig. 9.1. avem urmtoarele semnificaii atribuite simbolurilor:
punctele de intrare date n planul bidimensional real;
O puncte ce reprezint centrele clusterelor pentru care se atinge minimul
global cutat pentru funcia E;
E puncte ce reprezint centrele clusterelor calculate prin metoda
algoritmului original K-Means.











(a) 1 cluster, Q = 1.0 (b) 2 clustere, Q = 1.0 (c) 3 clustere, Q = 1.0












(d) 4 clustere, Q = 1.0 (e) 5 clustere, Q = 1.367 (f) 6 clustere, Q = 1.356











(g) 7 clustere, Q = 1.067 (h) 8 clustere, Q = 1.0 (i) 9 clustere, Q = 1.0
Fig. 9.1. Simularea modului de funcionare a algoritmului de clustering bazat pe
metoda original K-Means, pornind de la o distribuie particular dat de 9
puncte n planul bidimensional real; cazurile (a), (b), (c), (d), (e), (f), (g), (h),
(i) corespund respectiv la 1, 2, 3, 4, 5, 6, 7, 8, 9 clustere.





257
Mrimea C (C > 1) se numete calitatea reprezentrii clusterului, fiind calculat
conform formulei:

C
eroarea oritmului de clustering
eroarea imului global
=
alg
min
(9.60)

De asemenea, vom folosi pentru a studia calitatea clusteringului realizat de algoritmul
bazat pe metoda original, urmtoarele mrimi ce reprezint variaia calitii clusteringului:

- variaia maxim: { } C C
i t
i max
=
=
max
, ,..., 1 2
(9.61)

- variaia medie: C
t
C
mediu i
i
t
=
=

1
1
(9.62)

- abaterea medie ptratic: ( ) o
C i mediu
i
t
C C
2
1
2
=
=

(9.63)

Cu ajutorul acestor mrimi, s-a obinut n Tabelul 9.1 de mai jos, rezultatele aplicrii
algoritmului pentru cazul t = 100 (adic 100 de teste) i 9 puncte de intrare generate aleator n
planul bidimensional real.

m
(nr. de clustere)
C
max
C
mediu
o
C
2

1 1.000000 1.000000 0.000000
2 1.813297 1.064167 1.692273
3 1.696984 1.097048 2.961433
4 1.881154 1.097230 4.335665
5 2.135782 1.144528 4.621574
6 2.073583 1.145597 5.396631
7 2.230519 1.105344 6.486076
8 2.618419 1.027692 3.168752
9 1.000000 1.000000 0.000000

Tabelul 9.1: Studiul calitii clusteringului (t = 100, n = 9, d = 2).


n figurile de mai jos, avem urmtoarele cazuri:

- diagrama Voronoi pentru 192 de puncte de intrare cu ponderi egale i 12 clustere, n
Fig. 9.2;
- triangulaia Delaunay pentru cazul de mai sus n Fig. 9.3;
- diagrama Voronoi pentru 192 de puncte de intrare cu ponderi egale i 33 clustere, n
Fig. 9.4;
- triangulaia Delaunay pentru cazul de mai sus n Fig. 9.5;
- diagrama Voronoi pentru 192 de puncte de intrare cu ponderi diferite (egale cu raza
cercului cu care sunt simbolizate punctele de intrare) i 12 clustere, n Fig. 9.6;
- diagrama Voronoi pentru 192 de puncte de intrare cu ponderi diferite (egale cu raza
cercului cu care sunt simbolizate punctele de intrare) i 33 clustere, n Fig. 9.7;

258


Fig. 9.2: Diagrama Voronoi pentru 192 Fig. 9.3: Triangulaia Delaunay
de puncte de intrare cu ponderi pentru cazul din Fig. 9.2;
egale i 12 clustere.





Fig.9.4: Diagrama Voronoi pentru 192 de Fig.9.5. Triangulaia Delaunay
puncte de intrare cu de ponderi egale i pentru cazul din Fig. 9.4.
33 de clustere. .








259


Fig. 9.6: Diagrama Voronoi pentru 192 de Fig. 9.7: Diagrama Voronoi pentru 192 de
puncte de intrare cu ponderi diferite puncte de intrare cu ponderi diferite
(egale cu raza cercului cu care sunt (egale cu raza cercului cu care sunt
simbolizate punctele de intrare) i 12 simbolizate punctele de intrare) i 33
clustere. clustere.


Complexitatea algoritmului de clustering bazat pe metoda K-Means original este
O(N n log K t), unde n este dimensionalitatea datelor, N numrul punctelor de intrare date, K
numrul de clustere, t numrul de iteraii.


IX.1.2.2.3. Pasul III


n cadrul Pasului I i II al soluiei noastre originale de construcie a reelei neuronale
de tip PMSR, soluia problemei regularizrii (8.40), adic funcia f reprezentat sub
forma ( ) ( ) f w G
i i
i
N
x x x =
=

;
1
este aproximat prin funcia F, reprezentat sub forma:
( ) ( ) F v G
i i
i
K
x x t =
=

;
1

Dup cum am vzut noile centre de expansiune
{ }
t
i
i K =1,2, , se determin n
Pasul I I , algoritmul de nvare supervizat de la Pasul I I I va avea de optimizat doar
mulimea de parametrii
{ }
v i K
i
=1,2, , care corespund triilor sinaptice dintre stratul
ascuns i stratul de ieire. n acest fel, am redus cea mai dificil faz a procesului de nvare,
algoritmul de nvare supervizat BP relativ la un PMS cu dou straturi, la un algoritm de
nvare relativ la un PS (cu un singur strat). Pentru aceasta avem de parcurs urmtoarele
etape (vezi Cap. II):





260
- Modul de operare:

Dac x

= = ( , ,..., ), ,..., x x x N
n 0 1
1 reprezint vectorii de intrare, neuronul din
stratul de ieire vor genera urmtoarele valori:


( ) ( )
y F v G N
i i
i
K

= = =
=

x x t ; , , ,
1
1 (9.64)


Relaia care dorim s fie satisfcut dup faza de nvare supervizat este:

z y N

= = , , , 1 (9.65)

sau


( )
z v G N
i i
i
K

= =
=

x t ; , , ,
1
1 (9.66)

- Legea de nvare gradient-descendent

Atam PS funcia de eroare:


( )
E z y z v G
i
N
i i
K N
( ) ( ) ; w = =
=
|
\

|
.
|
= =

1
2
1
2
1
2
1
2
1

x t (9.67)

Aplicnd algoritmul gradientului descendent relativ la prezentarea mulimii de
antrenament ( ) ( ) { }
T f i N
i i
= = x x , ,2, , 1 .


( ) ( )
Av
E
v
z v G G i K
i
i
i i
i
K N
i
= =
|
\

|
.
|
=
= =

q
c
c
q

x t x t ; ; , ,2, ,
1 1
1 (9.68)

Corecia Aw
i

ce se aplic unei trii sinaptice la prezentarea vectorului de intrare x


este:


( )
Aw G i K N
i i

q o = = = x t ; , , , , , , 1 1 (9.69)
unde:

o

= z y (9.70)








261
I X.2. Proprietile reelelor neuronale de tip PMSR


Tehnica regularizrii permite construirea unei reele neuronale de tip PMS, cu un
singur strat ascuns. Aceast reea neuronal va pstra toate proprietile tehnicii regularizrii,
i anume:

- reea neuronal de regularizare este un aproximator universal, putnd aproxima
cu orice precizie dorit orice funcie continu pe un domeniu compact, dac n
stratul ascuns avem un numr suficient de neuroni. Vom demonstra aceast
aseriune n cadrul acestui paragraf.

- deoarece aceast metod de aproximare derivat din teorema regularizrii este
liniar n coeficienii necunoscui, dup cum vom arta mai trziu n acest
capitol, ea posed proprietatea de cea mai bun aproximant BAP (Best
Approximation Property). Aceasta nseamn c fiind dat o funcie f,
ntotdeauna exist o alegere posibil a coeficienilor, n aa fel nct funcia f
este aproximat mai bine dect orice alt alegere posibil a coeficienilor.
Proprietatea BAP este important mai ales din punct de vedere teoretic, ea fiind
satisfcut de ctre majoritatea schemelor clasice de aproximare, ca de exemplu
aproximare polinomial i aproximare spline.


Conform cu modul de operare al reelelor neuronale, funcia pe care o implementeaz
reeaua neuronal PMSR este:

( ) ( ) f w G
i i
i
N
x x x =
=

;
1
(9.71)

Aplicnd soluia de reducere a dimensionalitii descris mai sus se obine
aproximanta:

( ) ( ) F v G
i i
i
K
x x t =
=

;
1
(9.72)

Obs. 9.1: Dac funciile Green G(x;x
i
) ce reprezint funcia de activare a neuronilor din
stratul ascuns sunt pozitiv definite, funcia f implementat de reeaua neuronal de
regularizare reprezint interpolantul "optim", adic interpolantul ce minimizeaz funcionala
|| Pf ||
2
, chiar i fr termeni polinomiali.

Obs. 6.2: Dac funciile Green G(x;x
i
) ce reprezint funcia de activare a neuronilor din
stratul ascuns sunt pozitiv condiional definite, atunci trebuie s adugm o serie de termeni
polinomiali pentru a obine interpolantul "optim". O posibilitate foarte simpl de adugare a
unui termen polinomial liniar este de a efectua o conexiune direct ntre neuronii stratului de
intrare i neuronul stratului de ieire, punnd ca i trii sinaptice coeficienii reali a
0
, a
1
, ...,a
n
.
Atunci funcia implementat de reeaua neuronal va fi:

( ) ( )
( ) ( )
f c G a a x a x
i i i
i
N
n i
n
x x x = + + + +
=

; ...
0 1
1
1
(9.73)

262
S enunm n cele ce urmeaz rezultatul fundamental relativ la reelele neuronale de
regularizare PMSR, i anume, faptul c ele sunt aproximatori universali.

Teorema 9.1: Pentru orice funcie continu g definit pe o submulime compact din R
n
i
pentru orice funcie Green G definit ca n (9.73), exist o reea neuronal de regularizare
PMSR ce implementeaz funcia ( ) ( ) f w G
i i
i
N
x x x =
=

;
1
, astfel nct oricare ar fi x e R
n
i
oricare ar fi c > 0 are loc inegalitatea ( ) ( ) g f x x < c .

Demonstraie:

Fie funcia g : D _ R
n
R, unde D este un domeniu compact. Dac D este inclus
strict n R
n
, putem extinde domeniul de definiie al funciei g, atand valoarea zero pentru
toate punctele din R
n
care nu aparin domeniului D. Funcia extins n acest fel la toat
mulimea R
n
o vom nota tot g, fiind o funcie continu cu suportul
13
mrginit.
S considerm spaiul K al funciilor test, conform definiiei date n [75] de ctre
Gelfand i ilov. Pe scurt, acest spaiu K al funciilor test const din mulimea funciilor |(x)
ce au derivate continue de orice ordin i cu suportul mrginit (ceea ce nseamn c funcia,
precum i toate derivatele sale se anuleaz n afara unui domeniu mrginit).
Conform cu Anexa 1 a Capitolului I din lucrarea [75] menionat mai sus, ntotdeauna
exist o funcie |(x) e K arbitrar de apropiat de funcia dat g, adic astfel nct:

( ) ( ) > < c | c 0, , g x x x (9.74)

Pe baza inegalitii de mai sus este suficient s artm c orice funcie test |(x) e K
poate fi aproximat orict de bine de o compunere liniar de funcii Green, care ar
corespunde funciei f din Teorema pe care o demonstrm.
Vom porni de la urmtoarea identitate [158]:

( ) ( ) ( ) | | o x y x y y =
}
d
E
(9.75)

unde domeniul E de integrare este un domeniu mrginit pe care funcia |(x) nu se anuleaz.
Folosind relaia ( ) ( ) P P x x x x
-
= G
i i
; o i nlocuind-o n relaia de mai sus (9.75),
vom obine:

( ) ( )( )( ) | | x y x y y =
}
PPG d
E
; (9.76)

Deoarece avem |(x) e K iar PPeste un operator auto-adjunct, avem din relaia de
mai sus:

( ) ( )( )( ) | | x x; y PP y y =
}
G d
E
(9.77)

Atunci, putem rescrie relaia de mai sus astfel:

( ) ( ) ( ) | x x;y y y =
}
G d
E
(9.78)

13
Se numete suport al funciei g, nchiderea mulimii ( ) { } 0 = e x x g
n
R .
263

unde am efectuat notaia ( ) ( ) | x PP x = .
Deoarece funcia ( ) ( ) G x y y ; de sub semnul integralei din formula de mai sus este
continu pe poriuni (picewise continuous) pe un domeniu nchis, rezult c integrala (9.78)
exist n sensul Riemann. Folosind atunci definiia integralei Riemann, relaia (9.78) poate fi
rescris astfel:

( ) ( ) ( ) ( ) | x x x x = +
e

A A
n
k k x
k I
G E ; (9.79)

unde: x
k
sunt puncte ce aparin unei diviziuni A;
I reprezint mulimea index pentru care ( ) | x = 0 ;
E
x
(A) este eroarea de discretizare, ce are proprietatea: ( ) lim
A
A

=
0
0 E
x
.

Dac vom face alegerea:

( ) ( ) ( ) f G
n
k k
k I
x x x x =
e

A ; (9.80)

atunci combinnd relaiile (9.79) i (9.80) vom obine:

( ) ( )
| |
lim
A
=
0
0 | x x f (9.81)

adic tocmai ceea ce trebuia s demonstrm.























264
265
X. Studiul aplicativ a performanelor calculului neuronal



n capitolul de fa ne propunem s studiem practic capacitatea reelelor neuronale de
a aproxima funcii continue pe anumite intervale mrginite. Reeaua neuronal pe care o vom
folosi se bazeaz pe elementele teoretice prezentate n capitolele anterioare. Pe baza acestor
rezultate vom lua n considerare o reea neuronal de tip PMSR, avnd o arhitectur cu 2
straturi: un strat de intrare, un singur strat ascuns i un strat de ieire. Dup cum am mai
artat, rolul stratului de intrare este echivalent cu cel al unui buffer, care nu face altceva dect
s primeasc datele de intrare i s le propage mai departe spre stratul ascuns.

Avem o mulime de funcii continue pe intervalul [0,1]. Pe acest interval vom lua n
considerare o mulime de antrenament cu N puncte:


( )
{ }
T z z i N
i i
n
= e e = x x , , , ,2, , R R 1 (10.1)

Mulimea de puncte de antrenament poate fi obinut prin trei metode:

- distribuie aleatoare;
- distribuie uniform;
- obinute pe baza algoritmilor de nvare activa AI A (Cap V.3).

De asemenea, vom face studiul comparativ al reelei neuronale ca i metod de
aproximare-interpolare n raport cu metodele clasice de aproximare-interpolare.


X.1. Modul practic de construcie a reelei neuronale


Cele N puncte de antrenament ale reelei neuronale vor fi centrele sau nodurile pentru
metodele clasice de aproximare-interpolare.

S revenim la arhitectura reelei i s precizm toate elementele constituente:

- Stratul de intrare are n neuroni, unde n reprezint dimensionalitatea spaiului datelor de
antrenament, x e R
n
; vom studia doar cazurile n = 1 i n = 2 din considerente de
reprezentare grafic a rezultatelor. Funcia de activare a neuronilor din stratul ascuns este
funcia identic, acest strat avnd doar un rol de buffer pentru datele de intrare ce se
prezint reelei neuronale.
- Stratul ascuns are K neuroni care vor fi obinui pe baza algoritmului original de clustering
prezentat n Cap. IX; n anumite situaii vom lua n considerare i cazul limit K = N, adic
cazul ideal, cnd numrul neuronilor din stratul ascuns coincide cu numrul datelor de
antrenament. Funciile de activare a neuronilor din startul ascuns sunt funcii de tip RBF
( ) G
i
x x .
266
- Stratul de ieire are un singur neuron, ceea ce a fost justificat teoretic n capitolele
anterioare. Funcia de activare a neuronului din stratul ascuns este o funcie liniar. n
situaii speciale, cnd mulimea datelor de antrenament este grupat n clustere care nu sunt
disjuncte, vom lua n considerare o funcie de activare special a neuronului din stratul de
ieire bazat pe o formul de ponderare a valorilor de ieire generate de neuronii din stratul
ascuns. Formula este [28]:


( )
( )
y
w G
G
i i
i
K
i
i
K
=

=
=

x x
x x
1
1
(10.2)

Vom obine urmtoarea arhitectur particular de reea neuronal de tip PMSR:















Figura 10.1.: Arhitectura reelei neuronale de tip PMSR folosit pentru experimentele aplicative
din acest capitol.


Funciile de activare sunt funcii de tip RBF Gaussian, avnd formula:

( )
( )
G e i K
i
i
i
x t
x t
= =


2
2
1
o
, ,2, , (10.3)

Punctele t
i
e R
n
, reprezint centrele clusterelor obinute prin algoritmul nesupervizat
original de tip K-Means explicat detaliat in Cap VIII. n cazul limit cnd N = K, avem t
i
= x
i
,
i = 1,2,, N.

Modul practic de construcie a reelei neuronale poate fi exprimat prin urmtorul
algoritm [51], [60]:

Pasul 1. Se dau: precizia de nvare dorit c (sau numrul de epoci P - de cte ori se
prezint mulimea de antrenament reelei neuronale).

Se construiete mulimea punctelor de antrenament

( ) { } N i z z T
n
i i
, , 2 , 1 , , , = e e = R R x x
w
K

w
i

G
1

G
i

G
K

w
1

y
x
1

x
2

267

Construcia mulimii de antrenament se poate face astfel:

- este fixat de nsi natura problemei, antrenorul nu are nici un grad de libertate n
construcia ei.
- antrenorul are libertatea de a alege mulimea de antrenament. n aceast situaie
avem urmtoarele variante de alegere a mulimii de antrenament:
pe baza unei distribuii aleatoare;
pe baza unei distribuii uniforme;
pe baza algoritmilor de nvare activa AI A (Cap V.3)
Pasul 2. Se aplic asupra punctelor x
i
din mulimea de antrenament T algoritmul de
clustering, n urma cruia vom determina punctele t
i
, i = 1,2,, K care reprezint
centrele clusterelor precum i constanta K care reprezint numrul de clustere
(numrul neuronilor din stratul ascuns). De asemenea, se determin diametrul
fiecrui cluster o
i
e R, i = 1,2,, N.
Aceast etap poate fi eliminat dac se consider cazul limit cnd N = K, atunci
t
i
= x
i
, i = 1,2,, N, fiecare punct x
i
reprezentnd un cluster. n acest caz o
i
= 1.

Pasul 3. Se construiesc funciile de activare ale neuronilor din stratul ascuns:

( )
( )
G e i K
i
i
i
x t
x t
= =


2
2
1
o
, ,2, ,

Pasul 4. Se aplic algoritmul de nvare supervizat de tip gradient descendent pentru a
determina triile sinaptice w
i
, i = 1,2,,K.

Pasul 4.1. i : = 1; (epoca 1).
Pasul 4.2. Pn cnd E < c (sau pn cnd i <= P) execut:
Aplicm a i -a epoc de nvare folosind formulele:
Calculm eroarea de nvare E
N
z y
l i i
i
N
=
=

1
2
1
( ) , unde
y w e
i
x t
i
K
i i
i
=


=

( )
2
2
1
o
dac funcia de activare a neuronului de ieire este
funcia identic, sau
( )
( )
y
w G
G
i i
i
K
i
i
K
=

=
=

x t
x t
1
1
dac funcia de activare este funcia ponderat (10.2)

Pasul 4.3. Se actualizeaz triile sinaptice w
i
, i = 1,2,,K:

Aw
E
w
i
i
= q
c
c
, i w w w
i i i
= + A
Pasul 4.4. Se trece la o nou epoc de antrenament: i : = i + 1:

Pasul 5. STOP nvare. Se tiprete eroarea de nvare E.

268
[Pasul 6.] (Opional) Se calculeaz eroarea de generalizare. Se consider M date aleatoare din
spaiul datelor de intrare care nu fac parte din mulimea de antrenament T i se calculeaz
eroarea de generalizare:
E
M
z y
g i i
i
M
=
=

1
2
1
( )


X.2. Studiul comparativ dintre reelele neuronale i metodele
clasice de aproximare interpolare


ntrebrile la care vom ncerca s rspundem sunt: Care metode de aproximare-
interpolare sunt mai bune: cele clasice (Newton, Lagrange, Hermite, spline) sau reeaua
neuronal ? n care situaii, metodele clasice dau o aproximare mai bun i care sunt condiiile
n care reeaua d rezultate mai bune ?

Acest studiu este structurat pe cteva idei principale:
- tim c metodele de interpolare clasice dau rezultate slabe n cazul n care numrul
nodurilor de interpolare crete. Vom vedea c reeaua neuronal are performane
foarte bune indiferent de dimensionalitatea datelor de antrenament.. Bineneles,
reeaua nva mai bine punctele de antrenament cu ct numrul de prezentri (epoci)
crete, dar aceasta nu este o condiie suficient.





Fig.10.2: Funcia de aproximat este polinomul: ( ) 1
25
2
2
3
1
3
2
1
4
4
1
+ = x x x x x f .
Avem 40 de puncte echidistante pe intervalul [0,1], 40 , , 1 , 0 ,
40
= = i
i
i
x .
Procesul de nvare const din 100 de epoci, 40 de centre.

269


Figura 10.3: Funcia de aproximat este polinomul: ( ) 1
25
2
2
3
1
3
2
1
4
4
1
+ = x x x x x f .
Avem 40 de puncte echidistante pe intervalul [0,1], 40 , , 1 , 0 ,
40
= = i
i
x
i
.
Procesul de nvare const din 500 de epoci, 40 de centre.




Fig.10.4: Funcia de aproximat este polinomul: ( ) 1
25
2
2
3
1
3
2
1
4
4
1
+ = x x x x x f .
Avem 40 de puncte echidistante pe intervalul [0,1], 40 , , 1 , 0 ,
40
= = i
i
x
i
.
Procesul de nvare const din 5000 de epoci, 40 de centre.

270


Fig.10.5: Funcia de aproximat este polinomul: ( ) 1
25
2
2
3
1
3
2
1
4
4
1
+ = x x x x x f .
Avem 40 de puncte echidistante pe intervalul [0,1], 40 , , 1 , 0 ,
40
= = i
i
i
x .
Procesul de nvare const din 50000 de epoci, 40 de centre.



Nr.
Crt.
N - numrul
datelor de
antrenament
K - numrul
de centre
P - numrul
de epoci
E
l
- Eroarea
de nvare
E
g
- Eroarea
de
generalizare
1 40 40 100 12.035317 1.84732
2 40 40 500 0.096177 0.01609
3 40 40 5000 0.032246 0.00727
4 40 40 50000 0.031574 0.00708

Tabelul10.1: Rezultatele aproximrii funciei ( ) 1
25
2
2
3
1
3
2
1
4
4
1
+ = x x x x x f cu o reea
neuronal de tip PMSR cu N = 40, K = 40 i P = 100, 500, 5 000, 50 000.


271


Fig.10.6: Funcia de aproximat este polinomul: ( ) 1
25
2
2
3
1
3
2
1
4
4
1
+ = x x x x x f .
Avem 150 de puncte echidistante pe intervalul [0,1], 150 , , 1 , 0 ,
150
= = i
i
i
x .
Procesul de nvare const din 500 de epoci, 150 de centre.


Rezultate: cu excepia reelei neuronale i a metodei spline de aproximare, metodele
polinomiale clasice Newton, Lagrange, Hermite sunt divergente.

- Punctele de antrenament ale reelei, respectiv centrele sau nodurile polinoamelor de
interpolare au fost alese fie echidistante fie aleator. Cnd punctele de antrenament sunt
generate aleator, reeaua neuronal este mai performant dect metodele clasice. Dac
punctele sunt generate uniform (echidistant), performanele de aproximare-interpolare
ale reelei neuronale sunt apropiate de cele ale metodelor clasice. Diferena dintre
reeaua neuronal i metodele clasice apare la o dimensionalitate mare a punctelor de
aproximare. Acest lucru se ntmpl chiar dac punctele sunt generate uniform
(echidistant).

272

Fig.10.7: Funcia de aproximat este: ( ) ) 2 cos( x x f t =
Avem 5 de puncte aleatoare pe intervalul [0,1].
Procesul de nvare const din 500 de epoci, 5 centre.
Erorile pentru exemplul de mai sus:
- spline 0,3069671152;
- Newton 40,49784113;
- Lagrange 0,2561378829;
- reea neuronal 0,08568828;
- Hermite 3014889,56.


Fig.10.8: Funcia de aproximat este: ( ) ) 2 cos( x x f t =
Avem 5 de puncte aleatoare pe intervalul [0,1].
Procesul de nvare const din 5 000 de epoci, 5 centre.
Erorile pentru exemplul de mai sus:
- spline 0,2568668338;
- Newton 0,026904782;
- Lagrange 0,555861180;
- reea neuronal 0,0858866;
- Hermite 23838,43327.
273

Fig.10.7: Funcia de aproximat este: ( ) ) 2 cos( x x f t =
Avem 5 de puncte aleatoare pe intervalul [0,1].
Procesul de nvare const din 5 000 de epoci, 5 centre.
Erorile pentru exemplul de mai sus:
- spline 0,574804938;
- Newton 38,69991224;
- Lagrange 0,3498677214;
- reea neuronal 0,3079512;
- Hermite 38,35027568.


Fig. 10.8: Funcia de aproximat este: ( ) ) 2 cos( x x f t =
Avem 5 de puncte aleatoare pe intervalul [0,1].
Procesul de nvare const din 5000 de epoci. 5 centre.
Erorile pentru exemplul de mai sus:
- spline 0,21697057;
- Newton 0,07160424;
- Lagrange 0,033524709;
- reea neuronal 0,53529262;
- Hermite 99152,36216.
274

Analiznd ultimele 4 exemple reprezentate n Fig. 10.5, Fig. 10.6, Fig. 10.7, Fig. 10.8,
reeaua neuronal a reuit n s aproximeze funcia int ( ) f x x = cos( ) 2t mai bine dect
celelalte metode clasice. n dou cazuri, polinomul de interpolare Hermiteare cele mai slabe
performane, polinoamele de interpolare Newton i Lagrangesunt dependente n performane
de distribuia nodurilor de interpolare, iar cea mai bun performan de aproximare dintre
metodele clasice o are metoda spline.

Nr.
Crt

Spline


Newton

Lagrange
Reea
neuronal

Hermite
1 0,3069671152 40,49784113 0,2561378829 0,08568828 3014889,56
2 0,2568668338 0,026904782 0,555861180 0,0858866 23838,43328
3 0,574804938 38,69991224 0,3498677214 0,3079512 38,35027568
4 0,21697057 0,07160424 0,033524709 0,53529262 99152,36216

Tabelul 10.2: Rezultatele aproximrii funciei ( ) ) 2 cos( x x f t = cu o reea neuronal de tip PMSR
cu N = 5 puncte aleatoare, P = 5 000, K = 5.



Fig.10.9: Funcia de aproximat este: ( ) ) 2 sin( x x f t =
Avem 100 de puncte echidistante pe intervalul [0,1], 100 , , 1 , 0 ,
100
= = i
i
i
x .
Procesul de nvare const din 1 000 de epoci, 25 de centre.
Rezultate: E
l
= 0.028025 E
g
= 0.0004680
- spline 2.943925 e-5;
- Newton, Lagrange, Hermite divergente.

275

Fig.10.10: Funcia de aproximat este: ( ) ) 2 sin( x x f t =
Avem 100 de puncte echidistante pe intervalul [0,1], 100 , , 1 , 0 ,
100
= = i
i
i
x .

Procesul de nvare const din 1 000 de epoci, 25 de centre.
Rezultate: E
l
= 0.001455525 E
g
= 0.000222310
- spline 0.001178034;
- Newton, Lagrange, Hermite divergente.


Fig.10.11: Funcia de aproximat este polinomul: ( ) 1
25
2
2
3
1
3
2
1
4
4
1
+ = x x x x x f
Avem 3 puncte de antrenament aleatoare pe intervalul [0,1].

Procesul de nvare const din 30 000 de epoci, 40 de centre.
- spline 2,724244284;
- Newton 3,6743029e
-6
;
- Lagrange 3,683562e
-6
;
- reea neuronal 3,902782679;
- Hermite 1,69884676.
276


Fig.10.12: Funcia de aproximat este polinomul: ( ) 1
25
2
2
3
1
3
2
1
4
4
1
+ = x x x x x f
Avem 3 puncte de antrenament aleatoare pe intervalul [0,1].

Procesul de nvare const din 30 000 de epoci, 40 de centre.
- spline 5,985038956;
- Newton 710,5843598;
- Lagrange 30,03118536;
- reea neuronal 6,897794247;
- Hermite 5255,544475.


- Testele dovedesc c dac punctele de antrenament sunt echidistante, deci centrele
(nodurile) pentru metodele clasice sunt echidistante i numrul lor este, din nou metodele
clasice au performane de aproximare bune.



277
Fig.10.13: Funcia de aproximat este polinomul: ( ) 1
25
2
2
3
1
3
2
1
4
4
1
+ = x x x x x f
Avem 5 de puncte echidistante pe intervalul [0,1], 5 , , 1 , 0 ,
100
= = i
i
i
x
Procesul de nvare const din 30 000 de epoci, 5 centre.




Fig.10.14: Funcia de aproximat este: ( ) ) 2 cos( x x f t = .
Avem 5 de puncte echidistante pe intervalul [0,1]. 5 , , 1 , 0 ,
100
= = i
i
i
x
Procesul de nvare const din 30 000 de epoci, 5 centre.

- Cea mai bun metod clasic de aproximare, cu cele mai bune performane, este
metoda spline.
- Polinoamele de interpolare Hermite, Newton, Lagrange au performane de
interpolare foarte slabe n cazul n care punctele sunt generate aleator i n cazul n
care numrul nodurilor (punctele de antrenament), este mai mare dect 100.
- Exemplele prezentate confirm cele spuse mai sus. Reeaua neuronal, i metoda
spline sunt cele mai bune aproximante. Chiar dac reeaua neuronal nu
aproximeaz ntotdeauna mai bine dect metoda spline (mai ales dac punctele de
antrenament - nodurile de interpolare sunt echidistante), totui aproximarea dat de
reea se poate mbuntii ori prin mrirea numrului de antrenamente, ori prin
mrirea numrului de centre i / sau puncte de antrenament. Avantajul reelelor
neuronale este c sunt foarte flexibile. Pentru aceasta este nevoie ori de creterea
numrului de puncte, ori de creterea numrului de antrenamente.

n continuare vom mbunti performanele de aproximare a reelelor neuronale
folosind principiile nvrii active, i anume algoritmii de tip AI A (Algoritmi de nvare
Activ), datele de antrenament fiind alese n aa fel nct procesul de nvare, respectiv
precizia de aproximare s fie ct mai bune.
278
Pentru aceasta am implementat o reea neuronal de tip PMSR. Am aplicat acestei
reele neuronale algoritmul de nvare prezentat n Cap. IX.

Generarea datelor de antrenament s-a fcut n trei moduri distincte:

- Aleator pasiv - mulimea de date de antrenament s-a obinut prin generarea
aleatoarea unor puncte din domeniul D.
- Uniform pasive - mulimea de date de antrenament s-a obinut prin generarea
uniform (echidistant) a unor puncte din domeniul D.
- Activ - mulimea punctelor de antrenament s-a obinut aplicnd algoritmul AIA
(Algoritmul de nvare Activ) prezentat n Cap.V.3.

Experimentele s-au fcut cu scopul de a aproxima funcia int:
| | ( )
27
1
3
1
, 1 , 0 :
3
+
|
.
|

\
|
= x x f f R (10.4)

Datele de antrenament generate printr-una din cele trei metode aleator pasiv, uniform
pasiv i activ, au fost prezentate repetat reelei neuronale, n epoci de cte 1000, 5000 i
10000.



Fig.10.15: Aproximarea funciei int (10.4) cu reeaua neuronal PMSR utiliznd un algoritm de
nvare supervizat aleator pasiv: N = 100, 1000 de epoci, 25 de centre.

279



Fig.10.16: Aproximarea funciei int (10.4) cu reeaua neuronal PMSR utiliznd un algoritm de
nvare supervizat uniform pasiv: N = 100, 1 000 de epoci, 25 de centre.







Fig.10.17: Aproximarea funciei int (10.4) cu reeaua neuronal PMSR utiliznd un algoritm de
nvare supervizat activ (AIA): N = 100, 1 000 de epoci, 25 de centre.


280



Fig.10.18: Aproximarea funciei int (10.4) cu reeaua neuronal PMSR utiliznd un algoritm de
nvare supervizat aleator pasiv: N = 100, 5 000 de epoci, 25 de centre.







Fig.10.19: Aproximarea funciei int (10.4) cu reeaua neuronal PMSR utiliznd un algoritm de
nvare supervizat uniform pasiv: N = 100, 5 000 de epoci, 25 de centre.



281



Fig.10.20: Aproximarea funciei int (10.4) cu reeaua neuronal PMSR utiliznd un algoritm de
nvare supervizat activ (AIA): N = 100, 5 000 de epoci, 25 de centre.








Fig.10.21: Aproximarea funciei int (10.4) cu reeaua neuronal PMSR utiliznd un algoritm de
nvare supervizat aleator pasiv: N = 100, 10 000 de epoci, 25 de centre.


282



Fig.10.22: Aproximarea funciei int (10.4) cu reeaua neuronal PMSR utiliznd un algoritm de
nvare supervizat uniform pasiv: N = 100, 10000 de epoci, 25 de centre.





Fig.10.23: Aproximarea funciei int (10.4) cu reeaua neuronal PMSR utiliznd un algoritm de
nvare supervizat activ (AIA): N = 100, 10 000 de epoci, 25 de centre.


Rigla situat n partea inferioar a fiecrei figuri vizualizeaz distribuia datelor de
antrenament.
283
Se poate observa din Fig. 10.17, Fig. 10.20, Fig. 10.23, care corespund algoritmului
de nvare supervizat activ (AIA), modul de alegere a datelor de antrenament. Regiunile
dificil de nvat corespund regiunilor unde avem o densitate mai mare de puncte. n cazul
nostru aceste regiuni corespund poriunilor unde panta graficului funciei de aproximat este
mai accentuat. Regiunile uor de nvat necesit doar cteva puncte de antrenament. n
aceste regiuni panta graficului funciei este mic.
Analiza performanelor de aproximare a acestei reele neuronale trebuie s ia n
considerare pe lng eroarea de nvare E
l
i eroarea de generalizare E
g
.


Nr. de epoci


Aleator pasiv

Uniform pasiv

Activ (AIA)

1.000


E
l
= 0.00111933647
E
g
= 2.00543792e-5

E
l
= 0.00538671535
E
g
= 9.25674175e-5

E
l
= 0.005939686434
E
g
= 0.000305306076

5.000


E
l
= 0.00042799210
E
g
= 6.62271543e-6

E
l
= 6.77417526e-6
E
g
= 1.19316687e-6

E
l
= 8.411126178e-5
E
g
= 1.167369815e-5

10.000


E
l
= 0.00039366463
E
g
= 5.98244244244

E
l
= 5.59375032e-5
E
g
= 1.01227192e-5

E
l
= 5.386507373e-5
E
g
= 5.824087429e-7

Tabelul 10.3: Rezultatele procesului de nvare (aproximare) a funciei int (10.4). Parametrii
procesului de nvare N = 100 date de antrenament, 25 de centre.


Toate exemplele prezentate sunt obinute prin rularea unor programe originale. S-a
simulat pe un calculator secvenial o reea neuronal de tip PMSR, algoritmii folosii fiind
descrii la nceputul acestui capitol, iar pentru exemplele care implementeaz algoritmii de
nvare activ AIA s-au folosit algoritmii descrii n Cap V.3. Analiznd exemplele
prezentate i innd cont i de elementele teoretice, putem spune c o reea neuronal are
proprieti de aproximare-interpolare superioare metodelor clasice polinomiale i la fel de
bune ca metodele spline.
Prin ce este superioar o reea neuronal? Prin aceea c o dat implementat reeaua
neuronal se auto configureaz conform cu mulimea datelor de antrenament. Adugarea unor
noi date nu presupune o reconstrucie a metodei de aproximare ci o prezentare a noilor puncte
spre a fi nvate. Modificri de formule i implementri de algoritmi se fac doar o singur
dat, atunci cnd se construiete reeaua i se aplic procesul de nvare. n rest, doar
prezentri repetate de puncte de antrenament sunt necesare. Dac am avea la dispoziie i un
hardware adecvat, adic un sistem de calcul neuronal, calculul neuronal ar fi net superior
metodelor clasice. Simularea funcionrii unei reele neuronale pe un sistem de calcul
secvenial este limitat de considerente de reprezentare care au fost prezentate n Cap. VII.5.









284

285

XI. Concluzii

XI .1. Concluzii generale


Concluziile generale ale acestei monografii ale Calculului neuronal au n vedere
rezultate teoretice i experimentale obinute pe durata a peste 10 ani de cercetri. Ideea de
baz a acestei lucrri este un studiu matematic riguros al reelelor neuronale, echivalena
dintre numeroasele metode de aproximare i o reea neuronal de tip PMS (Perceptronul
MultiStrat) cu o arhitectur ce are un singur strat ascuns. Succesul ne ntlnit al utilizrii
reelelor neuronale n numeroase aplicaii practice trebuie ns dublat de un aparat teoretic
care s confere calculului neuronal un statut de rigurozitate. Acest lucru a reprezentat elul pe
care mi l-am propus n cadrul acestei lucrri.
Demonstrarea faptului c o reea neuronal de tip PMS cu un singur strat ascuns
satisface condiia de aproximant universal are o importan teoretic deosebit deoarece n
felul acesta se construiete unealta matematic necesar care confer acestei clase de reele
neuronale o caracteristic de aproximare. Fr o astfel de unealt matematic nu am avea nici
o garanie c vom gsi vreodat soluia dorit. Este adevrat c am folosit o demonstraie de
existen, dar trecerea de la PMS la PMSR s-a fcut prin indicarea clar a construciei reelei
neuronale aproximante. Chiar mai mult, am obinut i o expresie analitic pentru valorile
generate de reeaua neuronal care constituie aproximanta cutat.
Dat fiind noutatea i complexitatea acestui domeniu, inspirat din biologie, din
tentativa de a modela funcionarea celui mai complex sistem, creierul uman, abordarea
noastr a trebuit s urmeze o construcie gradual.
Am nceput cu elementele definitorii ale calculului neuronal, adic cu neuronul
biologic i ansamblul de neuroni care constituie o reea neuronal, cu explicarea biologic a
modului de funcionare. Urmtorul pas a fost modelarea matematic a modelelor biologice
prin construcia neuronului artificial i a reelei neuronale artificiale, mpreun cu prezentarea
aparatului matematic necesar modelului propus. Esena acestui model de reea neuronal
artificial are la baz procesul de nvare.
Deoarece, termenul de nvare este un termen generic, a fost nevoie de un capitol
special care s trateze sistematic i s defineasc ce nelegem printr-un proces de nvare. n
acest fel a trebuit s definim noiunea de algoritm de nvare i aceea de paradigm de
nvare. Scopul crii fiind construcia unui aparat matematic riguros, procesul de nvare
trebuia studiat prin nsi natura sa de proces statistic.
n continuare am abordat problema unei clase speciale de reele neuronale i anume
reelele neuronale numite perceptroni. Perceptronii reprezint cea mai general clas de reele
neuronale. Analiza perceptronilor este motivat de faptul c n aceast carte dovedim calitatea
de aproximator universal pe care o are aceast clas de reele neuronale. De asemenea,
reelele neuronale pe care le-am propus i le-am analizat ca metode de aproximare-interpolare
eficiente, sunt perceptroni cu o arhitectur particular. Studiul perceptronilor, ca de altfel
studiul oricrei reele neuronale, trebuie fcut prin prisma elementului definitoriu, i anume,
procesul de nvare. De aceea, am analizat procesele de nvare supervizat i nesupervizat
a acestor reele neuronale numite perceptroni.
286
O dat ce s-a fundamentat aparatul matematic necesar definirii calculului neuronal am
trecut la studiul proprietilor fundamentale ale reelelor neuronale, studiu care a nceput cu
analiza proprietii de aproximant universal. Aceast analiz a necesitat apelarea unor
elemente matematice riguroase care s poat fi aplicate calculului neuronal. Astfel am
prezentat celebra Teorem a lui Kolmogorov, precum si Teorema lui Stone-Weierstrass. Cu
ajutorul acestor teoreme matematice clasice, am pus bazele matematice ale proprietilor de
aproximant universal ale reelelor neuronale de tip perceptron. Analiza din carte a cuprins i
o serie de exemple care sunt folosite n practic, studiindu-se efectiv proprietile lor de
aproximare. Deoarece, existena unei reele neuronale este n acelai timp dependent i de
implementarea pe un sistem de calcul, analiza proprietilor fundamentale ale reelelor
neuronale a fost completat cu limitele practice ale acestor proprieti.
Din punct de vedere matematic o reea neuronal este o metod de aproximare -
interpolare. O astfel de metod de aproximare - interpolare aparinnd analizei numerice
clasice, se definete printr-un algoritm exprimat printr-o formul matematic. Orice
modificare a datelor presupune modificarea algoritmilor, respectiv modificarea expresiei
matematice ce definete metoda respectiv. O reea neuronal se auto-configureaz prin
intermediul procesului de nvare. Nu este necesar dect prezentarea repetat a datelor,
pn la obinerea preciziei de aproximare dorite. De aceea, este clar c principiul care st la
baza calculului neuronal, adic nvarea, este superior metodei clasice algoritmice care
presupune descoperirea unei formule. Bazndu-ne pe aceste considerente am studiat reelele
neuronale ca i metode de aproximare-interpolare. n acest context, am analizat problema
aproximrii n general pentru a putea stabili cadrul n care poate fi considerat echivalena cu
calculul neuronal.
Aproximarea funciilor netede, utiliznd reelele neuronale s-a fcut prin introducerea
unor elemente moderne din teoria aproximrii i anume teoria regularizrii. n acest context,
am urmat dou ci distincte care s duc la soluia dorit, utilizabil n contextul calculului
neuronal. Deoarece proprietatea de aproximant universal este caracteristic pentru
majoritatea schemelor de aproximare, deci i pentru reelele neuronale, am avut nevoie de o
caracteristic suplimentar. Caracteristica luat n considerare, bine cunoscut n literatura de
specialitate, este proprietatea de cea mai bun aproximant. Utiliznd un aparat matematic
riguros, am procedat la un studiu al reelelor neuronale ca i metode de aproximare-
interpolare prin prisma acestei proprieti de cea mai bun aproximant. Am reuit astfel s
stabilim care clase de reele neuronale posed aceast proprietate i care nu. Astfel, am artat
n acest studiu c cea mai popular metod de nvare supervizat aplicat la reele neuronale
de tip PMS, BP (BackPropagation), nu confer acestora aceast proprietate, de unde i
rezultatele relativ modeste ale reelelor neuronale de tip BP, cunoscute i n general justificate
doar ntr-un context particular. n schimb, reelele neuronale construite n urma studiului
teoretic inspirat de teoria regularizrii, denumite reele neuronale de tip PMSR (Perceptron
MultiStrat de Regularizare) posed aceast proprietate. Aplicaiile practice dovedesc
performanele superioare ale acestor reele neuronale de tip PMSR fa de reelele de tip BP.
Construcia reelelor neuronale de tip PMSR are o deosebit importan deoarece se
abordeaz elemente fundamentale ale calcului neuronal: arhitectura reelei, numrul necesar
de neuroni n stratul ascuns, reducerea dimensionalitii reelei neuronale, adic a
numrului de neuroni din stratul ascuns. Acest tip de reea neuronal este analizat nu doar
din punct de vedere practic, ci se formuleaz i cadrul teoretic care justific performanele
acestei reele neuronale.
Justificarea rezultatelor teoretice se face prin intermediul simulrii pe un sistem de
calcul a modului de funcionare a reelelor neuronale de tip PMSR. Se consider o serie de
exemple de funcii care se aproximeaz cu reele neuronale de tip PMSR. Se iau n
287
considerare pentru a fi nvate, deci pentru a construi o funcie aproximant care este nsi
reeaua neuronal, date generate uniform sau aleator.
Foarte bune rezultate se obin dac combinm arhitectura unei reele neuronale de tip
PMSR cu principiile nvrii active. Aplicnd acest principiu n care antrenorul nu este un
agent pasiv care doar prezint datele de nvat, ci i contribuie la alegerea lor, se obin
performane de aproximare-interpolare superioare metodelor clasice din analiza numeric.

288
289

XI .2. Perspective


Din analiza elementelor teoretice rezult idei importante pentru aplicarea n practic a
calculului neuronal. De mare actualitate este utilizarea acestor reele neuronale n nvarea
unor sisteme dinamice, care evolueaz n timp. Se cunosc rezultatele foarte bune obinute cu
reelele neuronale de tip RBF (Radial Basis Functions), care sunt de fapt un caz particular de
reea neuronal mai general, de tip PMSR. n acest sens, ca aplicaie practic, s-ar putea face
un studiu al diferiilor algoritmi de recunoatere a formelor pe baza unor exemple sau
modelarea micrii motrice biologice.
O alt extindere a acestui studiu ar putea fi problema fundamental a calculului
neuronal: cte exemple sunt necesare procesului de nvare pentru a obine o anumit
precizie? Din literatura de specialitate se cunoate c rspunsul la aceast ntrebare este
influenat de dimensionalitatea spaiului de intrare n i de gradul de netezime p al clasei de
funcii de aproximat. Pe baza algoritmilor de nvare activ, se poate rspunde la aceast
ntrebare nu printr-o valoare a priori, ci printr-un proces dinamic de nvare care s aleag
numrul de date necesar [47], [53].
De asemenea, un studiu care s cuprind mai multe tipuri de funcii de activare a
neuronilor din stratul ascuns ar fi de actualitate. n aplicaiile practice din aceast carte am
utilizat funcii de activare ale neuronilor din stratul ascuns de tip Gaussian. Un studiu ar putea
determina care tip de funcie de activare ar fi mai eficient pentru a mbunti proprietile
reelelor neuronale.
Din punct de vedere teoretic, un studiu interesant se poate face pe baza algoritmului
de nvare activ, n definirea regiunilor dificile de nvat. Aceasta se caracterizeaz de fapt
prin erori mari de aproximare, de unde rezult necesitatea de a alege mai multe exemple din
acele regiuni. Prin aceasta, se poate defini riguros noiuni generale cum ar fi, greu de
nvat sau uor de nvat.
Studiul teoretic referitor la reele neuronale, ca i metode de aproximare-interpolare,
poate fi folosit i n teoria aproximrii. De fapt, am obinut n aceast tez, o nou expresie
analitic pentru o funcie de aproximare care corespunde valorii de ieire generat de reeaua
neuronal de tip PMSR. Studiile practice au artat c, mai ales acolo unde metodele
polinomiale de aproximare-interpolare clasice nu sunt performante, reeaua neuronal are
performane foarte bune. Aceasta se ntmpl mai ales atunci cnd avem peste 100 de date
(noduri) de nvat.

290
291
XII. Bibliografie


1. Adams, R.A., Sobolev Spaces. New-York: Willey, 1975.
2. Alexander, I., Why neural computing? A personal view. In: Neural Computing
Architectures, I. Alexander (eds.), North Oxford Academic, London, 1989.
3. Amari, S.A., Dynamics of Pattern Formation in Lateral-Inhibition Type Neural Fields.
Biological Cybernetics 27, 77-87, 1977.
4. Amit, D., Modelling Brain Function. Cambridge Univesity Press, 1989.
5. Anderson, J.A., Coerent Optical Eigenstate Memory. Optical Letters 11, 56-58, 1968.
6. Anderson, J.A., Rosenfeld, E., eds. Neurocomputing: Foundation of Research. MIT
Press. Cambridge, 1988.
7. Anderson, J.R., The Architecture of Cognition. Harvard University Press, 1983.
8. Angluin, D., Machine Learning, 2, 319-342, 1988.
9. Arbib, M.A. Brains, Machines and Mathematics. Springer-Verlag. Berlin, 1987.
10. Arnold, V.I., On function of three variables, Doklady Akademii Nauk USSR 114, 679-
681, 1957.
11. Bachmann, C.M., Cooper, L.N., Dembo, A., Zeitouni, O., A Relaxation Model for
Memory with High Storage Density. Proc. of the National Academy of Sciences, USA 84,
7529-7531, 1987.
12. Baldi, P., Hornik, K., Neural Networks and Principal Component Analysis: Learning
from Examples Without Local Minima. Neural Networks 2, 53-58, 1989.
13. Barlow, H.B., Unsupervised Learning. Neural Computation 1, 295, 1989.
14. Barto, A.G., Reinforcement learning and adaptive critic methods, In: White, D.E, Sofge,
D.A. editors: Handbook of Intelligent Control, 469-491, New-York, Van Nostrad-
Reinhold, 1992.
15. Baum, E.B., Hausler, D., What Size Net Gives Valid Generalization? Neural Computation
1, 151-160, 1989.
16. Baum, E.B., Wilczek, F., Supervised Learning of Probability Distribution by Neural
Networks. In: Neural Information Processing Systems, Denver, 1987, Ed. D.Z. Anderson,
52-61, New-York, 1988.
17. Bertero, M., Poggio, T., Torre, V., Ill-posed problems in early vision. Proceedings of the
IEEE, vol. 76, 869-889, 1988.
18. Beurle, R.L., Properties of a Mass of Cells Capable of Regenerating Pulses.
Philosophical Transaction of the Royal Society of London, B 240, 55-94, 1956.
19. Bienenstock, E.L., Cooper, L.N., Munro, P.W., Theory for the Development of Neuron
Selectivity: Orientation Specificity and Binocular Interaction in Visual Cortex. Journal of
Neuroscience 2, 32-48, 1982.
20. Stancu, D., Analiz numeric. Facultatea de Matematic, Universitatea Babe-Bolyai,
Cluj-Napoca.
21. Blaga, P., Calculul probabilitilor i statistic matematic. Facultatea de Matematic,
Universitatea Babe-Bolyai, Cluj-Napoca, 1994.
22. Bochner, S., Voresungen ueber Fouriersche Integrale. Akademische Verlagsgesell-
schaft, Leipzig, 1932.
23. Boor, C., A practical guide to splines. Springer-Verlag, New-York, 1978.
24. Broomhead, D.S., Lowe, D., Multivariable functional interpolation and adaptive
networks, Complex Systems, 2, 321-355, 1988.
25. Bowyer, A., Computing Dirichlet tessellations. Comp. Journal, Vol. 24, No. 2, 1981, 162-
166, 1981.
292
26. Budinich, M., Miloti, E., Geometrical Interpretation of the Back-Propagation Algorithm
for the Perceptron. In Press, 1992.
27. Budinich, M., Miloti, E., Properties of Feedforward Neural networks. Journal Physics A:
Math, Gen. 25, 1903-1914, 1992.
28. Bugmann, G., Note on the use of Weight-Averaging Output Nodes in RBF-Based
Mapping Nets. Research Report CNAS-96-02, Center for Neural and Adaptive Systems,
University of Plymouth, 1996.
29. Caianiello, E.R., Outline of a Theory of Thought and Thinking Machines. Journal of
Theoretical Biology, 1, 204-235, 1961.
30. Coman, G., Analiz numeric. Facultatea de Matematic, Universitatea Babe-Bolyai,
Cluj-Napoca, 1984.
31. Coman, G., Analiz numeric. Editura Libris, Cluj-Napoca, 1995.
32. Cotter, E. N., The Stone-Weierstrass Theorem and its application to neural networks.
IEEE Transactions on Neural Networks, Vol. 1, No. 4, 290-295, 1990.
33. Cottrell, G.W., Munro, P., Zipser, D., Learning Internal Representation from Gray-Scale
Images: An Example of Extensional Programming. In: Ninth Conf. of the Cognitive
Science Society, Seattle, 462-473, Erlbaum, 1987.
34. Cottrel, M., Fort, J.C., A Stochastic Model of Retinotopy: A Self Organizing Process.
Biological Cybernetics, 53, 405-411, 1986.
35. Courant, R., Hilbert, D., Methods of mathematical Physics. Vol. 1, 2, Intersience,
London, England, 1962.
36. Cragg, B.G., Temperlay, H.N.V., The Organization of Neurons: A Cooperative Analogy.
EEG and Clinical Neurophysiology 6, 85-92, 1954.
37. Cybenko, G., Approximation by superposition of a sigmoidal function. Mathematics of
Control, Signals and Systems, 2, 303-314, 1989.
38. de Figuiredo, R.J.P., Chen, G., Nonlinear Feedback Control Systems. New-York,
Academic Press, 1993.
39. Debnath, L., Mikuisinski, P., Introduction to Hilbert Spaces with Applications. San
Diego, CA: Academic Press, 1990.
40. Denker, J., Schwartz, D., Wittner, B., Solla, S., Howard, R., Jackel, L., Large Automatic
Learning, Rule Extraction and Generalization. Complex Systems, 1, 877-922, 1987.
41. Duchon, J., Spline minimizing rotation-invariant semi-norms in Sobolev spaces. In:
Zeller, K., editors. Constructive Theory of functions of several variables, Lecture Notes
in Mathematics, 571, Springer-Verlag, Berlin, 1977.
42. Duda, R.O., Hart, P.E, Pattern Classification and Scene Analysis. New-York: Willey,
1973.
43. Dyn, N., Interpolation and approximation by radial and related functions. In: Chui, C.K.,
Schumaker, L.L., Ward, D.J., editors, Approximation Theory, VI, 211-234, Academic
Press, New-York, 1991.
44. Enchescu, C., Approximation Capabilities of Neural Networks; JNAIAM - Journal of
Numerical Analyses, Industrial and Applied Mathematics, Volume 3, issues 3-4 (2008),
November, 221-230, 2008.
45. Enchescu, C., Neural networks for function approximation; International Conference
BICS2008, Bio-Inspired Computational Methods Used for Difficult Problems Solving.
Development of Intelligent and Complex Systems, "Petru Maior" University of Trgu-
Mure and Romanian Academy, Trgu-Mure, November 6 7, 2008, 84-89, Editura
Universitii "Petru Maior" Trgu-Mure, 2008.
46. Enchescu, C., Neural Computation Used for Functions Approximation; Advanced bio-
inspired computational methods / eds.: Clin Enchescu, Barna Iantovics, Florin Filip,
Trgu-Mure, Editura Universitii "Petru Maior", 208-216, 2008.
47. Enchescu, C., Using Prior Information To Improve The Approximation Performances of
Neural Networks; Numerical Analysis and Applied Mathematics, International
293
Conference of Numerical Analysis and Applied Mathematics 2007 (ICNAAM 2007),
Corfu, Greece, September 2007, AIP American Institute of Physics, Melville, NY,
USA, Weinheim, Volume 936, 170-173, 2007.
48. Enchescu, C., Data Predictions using Neural Networks.; Proceedings of the
International Conference on Knowledge Engineering, Principles and Techniques KEPT-
2007, "Babes-Bolyai" University of Cluj-Napoca, Cluj-Napoca, June 6 8, 2007, 290-
297, Editura Presa Universitara Clujeana, 2007.
49. Enchescu, C., Approximation Capabilities of Neural Networks; Proceedings of the 3rd
International Conference of Numerical Analysis and Applied Mathematics 2006
(ICNAAM 2006), Hersonissos, Creta, September 2006, Weinheim, Willey-VCH, Grecia
15-19 septembrie, 113-116, 2006.
50. Enchescu, C., Rdoiu D, Adjei O., Learning strategies using prior information; IJICIS -
International Journal of Intelligent Computing and Information Science, Vol. 5, Nr. 1,
381-393, septembrie, 2005.
51. Enchescu, C., Learning Properties for Radial Basis Functions Neural Networks;
microCAD 2002 International Scientific Conference, University of Miskolc, Hungary,
25-31, Innovation and Technology Transfer Centre, 2003.
52. Enchescu, C., Active Learning for Neural Networks; Computer Science Education:
Challenges for the New Millenium, Eds: Gerrit C. Van der Veer, Ioan Alfred Letia, Vrije
University, Amsterdam, 27-46, Editura Casa Crii de tiin, Cluj, 1999.
53. Enchescu, C., Improving the learning performances of neural networks using a priori
information; Research Seminars, Seminar on Computer Science, Preprint No.2, "Babe-
Bolyai" University of Cluj-Napoca, Faculty of Mathematics and Computer Science, 179-
188, 1998.
54. Enchescu, C., Fundamentele reelelor neuronale; Editura "Casa Crii de tiin", Cluj-
Napoca, 200 pag., ISBN 973-9204-81-8, 1998.
55. Enchescu, C., Elemente de inteligen artificial. Calculul neuronal. Universitatea
Tehnic Cluj-Napoca, 1997.
56. Enchescu, C., Active learning for improving the performances of neural networks.
Studia, "Universitatea Babe-Bolyai", Cluj-Napoca, 1997.
57. Enchescu, C., Aproximarea funciilor continue cu ajutorul reelelor neuronale,
Academia Naval Mircea cel Btrn, Constana, Octombrie, 1997.
58. Enchescu, C., Mathematical Foundations of Neural Networks Learning. ROCNET'96.
Al II-lea Simpozion Naional de reele Neuronale, Bucureti, 1996.
59. Enchescu, C., Neural Networks as aproximation methods. International Conference on
Aproximation and Optimization Methods, ICAOR'96, "Universitatea Babe-Bolyai",
Cluj-Napoca, 1996.
60. Enchescu, C., Referat Nr.3, Universitatea Babe-Bolyai, Facultatea de Matematic-
Informatic, Cluj-Napoca, 1996.
61. Enchescu,C., Metod de optimizare a procesului de nvare a reelelor neuronale.
Sesiunea tiinific anual a cadrelor didactice, Universitatea Petru Maior Trgu-
Mure, Decembrie, 1996.
62. Enchescu, C., Reele neuronale i teoria aproximrii. Sesiunea tiinific anual a
cadrelor didactice, Universitatea Trgu-Mure, Decembrie, 1995.
63. Enchescu, C., Properties of Neural Networks Learning, 5th International Symposium on
Automatic Control and Computer Science, SACCS '95, Vol.2, 273-278, Technical
University "Gh. Asachi" of Iasi, Romania, 1995.
64. Enchescu, C., Referat Nr.2, Universitatea Babe-Bolyai, Facultatea de Matematic-
Informatic, Cluj-Napoca, 1995.
65. Enchescu, C., Learning Techniques for Neural Networks; The Annual Meeting of the
Romanian Society of Mathematical Sciences, Vol. 2, Craiova, May 26-29, 55-65, 1999.
294
66. Enchescu, C., Learning the Neural Networks from the Approximation Theory
Perspective. Intelligent Computer Communication ICC '95 Proceedings, 184-187,
Technical University of Cluj-Napoca, Romania, 1995.
67. Enchescu, C., Caracterizarea Reelelor Neuronale ca i metode de aproximare-
interpolare. Buletinul tiinific, Universitatea Tehnic din Trgu-Mure, Vol. VII, Trgu-
Mure, Romnia, 1994.
68. Enchescu, C., Referat Nr. 1: Calcul Neuronal, Universitatea Babe-Bolyai Cluj-
Napoca, 1994.
69. Enchescu, C., Calcul Neuronal. PC-Report 12, Agora Press, 1993.
70. Enchescu, C., Tehnologia calculului neuronal, Buletinul tiinific, Universitatea
Tehnic din Trgu-Mure, Vol. VI, 1-23, Trgu-Mure, Romnia, 1993.
71. Fahlman, S.E., Fast Learning Variations on Back-Propagation: An Empirical Study. In:
Proc. of the 1988 Connectionist Models Summer School, Pittsburgh, 1988. Eds. D.
Touretzky, G. Hinton, T. Sejnowski, 38-51, Morgan Kaufmann, 1989.
72. Fukushima, K., Cognitron: A Self-Organizing Multilayer Neural Network. Biological
Cybernetics 20, 121-136, 1975.
73. Fukushima, K., Neocognitron: A Self-Organizing Neural Network Model for a
Mechanism of Pattern Recognition Unaffected by Shift in Position. Biological
Cybernetics 36, 193-202, 1980.
74. Gallant, A.R., White, H., There exists a neural network that does not make avoidable
mistables. IEEE Second International Conference on Neural Networks, 657-664, San-
Diego: SOS Printing, 1988.
75. Gelfand, I.M., ilov, G.E., Funcii generalizate. Editura tiinific i enciclopedic.
Bucureti, 1983.
76. Gelfand, I.M., Vilenkin, N.I., Funcii generalizate. Aplicaii ale analizei armonice.
Editura tiinific i enciclopedic, Bucureti, 1985.
77. Geman S., Geman, D., Stochastic relaxation, Gibbs distributions and the Bayesian
restoration of images. IEEE Transaction on Pattern Analysis and Machine Intelligence,
PAMI-6: 721-741, 1984.
78. Gersho, A., On the Structure of Vector Quantizers. IEEE Trans. Inform. Theory, Vol. IT-
25, No. 4, 373-380, 1979.
79. Geszti, T., Physical Models of Neural Networks. Singapore: World Scientific, 1990.
80. Girosi, F., Jones, M., Poggio, T., Priors, Stabilizers and Basis Functions: from
reguralization to radial, tensor and additive splines. M.I.T, A.I. Memo No. 1430, 1993.
81. F. Girosi, T. Pogio, Networks and the Best Approximation Property. Biological
Cybernetics, 63, 169-176, 1990.
82. Glauber, R.J., Time-dependent Statistics of the Ising Model. Journal of Mathematical
Physics 4, 294-307, 1963.
83. Glover, D. et al., Adaptive Noise Canceling: Principles and Applications. Proc. of IEEE,
Vol. 63, 12, 1692-1716, 1975.
84. Gorman, R.P., Sejnowsky, T.J., Learned Classification of Sonar Targets Using a
Massively-Parallel Network. IEEE Trans. on Acoustics, Speech and Signal Proc. 36,
1135-1140, 1988.
85. Gougam, L.A., Tribeche, M., Mekideche-Chafa, F., A systematic investigation of a neural
network for function approximation. Neural Networks, Vol. 21, No. 9, 1311-1317, 2008.
86. Grossberg, S., Competitive Learning: From Interactive Activation to Adaptive
Resonance. Cognitive Science 11(1), 23-64, 1987.
87. Grossberg, S., Adaptive Pattern Classification and Universal Recording. Parallel
Development and Coding of Neural Feature Detectors. Biological Cybernetics 23, 121-
134, 1976.
88. Grossberg, S., Nonlinear Difference-Differential Equation in Prediction and Learning
Theory. Proc. of the National Academy of Sciences, USA, 58, 1329-1334, 1968.
295
89. Gutfreund, H., Toulouse, G., The Physics of Neural Networks, Preprint, 1992.
90. Hanson, S.J., Burr, D.J., What Connectionist Models Learn: Learning and Representation
in Connectionist Networks. Behavioral and Brain Sciences 13, 471-518, 1990.
91. Harder, R.L., Desmarais, R.M., Interpolation using surface splines. Journal of Aircraft, 9,
189-191, 1972.
92. Hastie, T., Tibshirani, R., Generalized additive models: some applications. Journal of
American Statistical Associations, 82, 371-386, 1987.
93. Haykin, S., Neural Networks. A Comprehensive Foundation. IEEE Press, MacMillian,
1994.
94. Hebb, D.O., The Organization of Behavior. Willey, New-York, 1940.
95. Hecht-Nielsen, R., Counterpropagation Networks. Applied Optics 26, 4979-4984, 1987.
96. Hertz, J., Krogh, A., Palmer, R.G., Introduction to the Theory of Neural Computation,
Addison-Wesley Publishing Co., 1992.
97. Hinton, G.E, Sejnowsky, T.J., Learning and relearning in Boltzmann machines, In
Rumelhart, D.E., McClelland, J.L. editors: Parallel Distributed Processing: Explorations
in Microstructure of Cognition. Cambridge, MA: MIT Press, 1986.
98. Hinton, G.E., Sejnowski, T.J. Optimal Perceptual Inference. In: Proc. of the IEEE
Conference on Computer Vision and Pattern Recognition, Washington 1986, 448-453,
1983.
99. Hockney, R.W., Jesshope, C.R., Calculatoare paralele. Arhitectur, programare i
algoritmi, Ed. a II-a, Editura Tehnic, Bucureti, 1991.
100. Hopfield, J.J. Neural Networks and Physical Systems with Emergent Computational
Abilities. Proc. of the National Academy of Sciences, USA, 79, 2554-2558, 1982.
101. Hopfield, J.J., Tank, D.W., Neural Computation of Decisions in Optimization Problem.
Biological Cybernetics, 52, 141-152, 1985.
102. Hornik, K., Approximation Capabilities of Multilayer Feedforward Networks. Neural
Networks, Vol. 4, 251-257, 1991.
103. Hornik, K., Stinchcombe, M., White, H., Multilayer feedforward networks are universal
approximators. Neural Networks, Vol. 2, 359-366, 1989.
104. Hornik,K., Stinchcombe, M., White, H., Universal Approximation of an Unknown
Mapping and Its Derivatives Using Multilayer Feed-forward Networks. Neural Networks,
Vol.3, 551-560, 1990.
105. Hubel, D.H., Wiesel, T.N., Receptive Fields, Binocular Interaction and Functional
Architecture in the Cat's Visual Cortex. Journal of Physiology, London, 160, 106-154,
1962.
106. Irie, B., Miyake, S., Capabilities of three-layered perceptrons. Proceedings of the 1988
IEEE International Conference on Neural Networks, 641-648, New-York: IEEE Press,
1988.
107. Jacobs, R.A., Increased Rates of Convergence Through Learning Rate Adaptation.
Neural Networks 1, 295-307, 1988.
108. Jansen, A., van der Smagt, P., Groen, F., Nested networks for robot control. In Murray,
A.F., ed., Applications of Neural Networks, 221-239, Kluwer Academic Publishers,
Dordrecht, 1995.
109. Jolliffe, I.T., Principal Component Analysis. New-York: Springer Verlag, 1986.
110. Jordan, M., Generic constrains on under specified target trajectories. Proc. of the 1989
International Joint Conference on Neural Networks, 217-225, New-York: IEEE Press,
1989.
111. Kantorovich, L.V., Akilov, G.P., Functional Analysis. 2nd edition, Oxford: Pergamon,
1982.
112. Khana, T., Foundations of Neural Networks. Addison-Wesley, New-York, 1990.
113. Knudsen, E.I., S. du Lac, Esterly, D.S., Computational maps in the brain. Ann. Rev.
Neuroscience, Vol. 10, 214-220, 1987.
296
114. Kohonen, T., An Adaptive Associative Memory Principle. IEEE Transaction on
Computers, C-23, 444-445, 1974.
115. Kohonen, T., Associative memory: A System Theoretical Approach. Springer-Verlag,
1977.
116. Kohonen, T., Self-Organized Formation of Topologically Correct Feature Maps,
Biological Cybernetics 43, 59-69, 1983.
117. Kohonen, T., The Self-Organizing Map, Proc. of the IEEE, Vol. 78, No. 9, September
1990
118. Kolmogorov, A.N., On the representation of continuos functions of many variables by
superpositions of continous functions of one variable and addition. Doklady Akademii
Nauk USSR 114 (5), 953-956, 1957.
119. Kreyszig, E., Advanced Engineering Mathematics. Willey, New-York, 1988.
120. Krushner, H.J., Klark, D.S., Stochastic Approximation Methods for Constrained and
Unconstrained Systems. New-York: Springer-Verlag, 1978.
121. Kullbach, S., Information Theory and Statistics. Willey, New-York, 1959.
122. V. Kurkova, Learning from Data as an Inverse Problem. In COMPSTAT 2004
Proceedings on Computer statistics (J. Antoch Ed.), 1377-1384, Heidelberg: Phisica-
Verlag / Springer, 2004.
123. V. Kurkova, Supervised Learning as an Inverse Problem. Research Report ICS-2004-960,
Institute of Computer Science, Prague (2004).
124. Kurkova, V., Kolmogorov's theorem and multilayer Neural Networks. Neural Networks,
5, 501-506, 1992.
125. Lapedes, A., Farber, R., Nonlinear Signal Processing Using Neural Networks: Prediction
and System Modeling. Technical Report LA-UR-87-2662, Los Alamos National
Laboratory, 1988.
126. Lawrance, S., Tsoi, A.C., Back, A., Function approximation with neural networks and
local methods: bias, variance and smoothness. Australian Conf. on Neural Networks,
1996.
127. Linsker, R., From Basic Network Principles to Neural Architectures. Proceedings of the
National Academy of Sciences, USA 83, 7508-7512, 8390-8384, 8779-8783, 1986.
128. Linsker, R. Self-Organization in a Perceptual Network. Computer, March, 1988, 105-
117, 1988.
129. Little, W.A. The Existence of Persistent States in the Brain. Mathematical Biosciences
19, 101-120, 1974.
130. Ma, S.-K., Modern Theory of Critical Phenomena. W. A. Benjamin Inc., New-York,
1976.
131. Mackey, M.C., Glass, L. Oscillation and Chaos in Physiological Control Systems.
Science 197, 287, 1977.
132. Madich, W.R., Nelson, S.A., Multivariate interpolation and conditionally positive
definite functions. II. Mathematics of Computations, 54 (189): 211-230, 1990.
133. Marr, D. A Theory of Cerebellar Cortex. Journal of Phys. London, 202 437-470, 1969.
134. Marr, D. Vision., Freeman: San Francisco, 1982.
135. Marroquin, J.L., Mitter, S., Poggio, T., Probabilistic solution of ill-posed problems in
computational vision. Journal of American Stat. Assoc., 82:76-89, 1987.
136. Maruter, I., Metode numerice n rezolvarea ecuaiilor neliniare., Editura Tehnic,
Bucureti, 1981.
137. Maz'ja, V.G. Sobolev Spaces. New-York: Springer-Verlag, 1985.
138. McCulloch, W.S.,Pitts, W. A Logical Calculus of Ideas Immanent in Nervous Activity.,
Bull. of Mathematical Biophysics 5, 115-133, 1943.
139. Meinguet, J., Multivariate interpolation at arbitrary points made simple. Journal of Appl.
Math. Phys. Vol. 30, 292-304, 1979.
297
140. Mendel, J.M., McLaren, R.W., Reinforcement-learning control and pattern recognition
Sytems, In J.M. Mendel, Fu, K. S. editors: Adaptive, Learning, and Pattern Recognition
Systems: Theory and Applications, 287-318, New-York: Academic Press, 1970.
141. Metropolis, N., Rosenbluth, M., Rosenbluth, A., Teller, A., Teller, E., Equation of state
calculations by fast computing machines. Journal of Physical Chemistry, 21, 1087, 1953.
142. Micchelli, C.A., Interpolation of scattered data: Distance matrices and conditionally
positive definite functions. Constr. Approx., Vol. 2, 11-22, 1986.
143. Minsky, M.L., Computation: Finite and Infinite Machines. Prentice-Hall, 1967.
144. Minsky, M.L., Steps towards artificial intelligence. Proceedings of the Institute of Radio
Engineering, 49, 8-30, 1961.
145. Minsky, M.L., Papert, S.A., Perceptrons. MIT Press. Cambridge, 1969.
146. Mitchinson, G.J.,Durbin,R.M. Bounds on the Learning Capacity of Some Multilayer
Networks. Biological Cybernetics 60, 345-356, 1989.
147. Morozov, V.A., Methods for solving incorrectly posed problems. Springer-Verlag,
Berlin, 1984.
148. Neural Ware Inc., Neural Computing. Neural Works Professional II/Plus.
149. Niyogi, P., Active Learning by Sequential Optimal Recovery. A. I. Memo No. 1514,
C.B.C.L. Paper No. 113, M.I.T, Massachusetts, 1995.
150. Oja, E., A Simplified Neuronal Model As a Principal Component Analyzer. Journal of
Mathematical Biology 15, 267-273, 1982.
151. Oja, E., Neural Networks, Principal Components, and Subspaces. International Journal of
Neural Systems 1, 61-68, 1989.
152. Oja, E., Karhunen, J., On Stochastic Approximation of the Eigenvectors and eigenvalues
of the Expectation of a Random Matrix. Journal of Mathematical Analysis and
Application 106, 69-84, 1985.
153. Palm, G, Neural Assemblies: An Alternative Approach. New-York, Springer-Verlag,
1982.
154. Parisi, G., Statistical Field Theory, Addison-Wesley, Reading, Massachusetts, 1988.
155. Pearlmutter, B.A., Hinton, G.E., G-Maximization: An Unsupervised Learning Procedure
for Discovering Regularities. Neural Networks for Computing (Snowbird 1986), ed.
Denker, J.S., 333-338. New-York, American Institute of Physics, 1986.
156. Peretto, P., Collective Properties of Neural Networks. A Statistical Physics Approach.
Biological Cybernetics 50, 51-62, 1984.
157. Plant, D., Nowlan, S., Hinton, G., Experiments on Learning by Back-Propagation.
Technical Report CMU-86-126, Dept. of Comp. Science, Carnegie Mellon University,
Pittsburgh, 1986.
158. Poggio, T., Girosi, F., Networks and the best approximation property. Biological
Cybernetics, 63, 169-176, 1990.
159. Poggio, T., Girosi, F., Networks for Approximation and Learning. Proceedings of the
IEEE, Vol. 78, No. 9, Sept. 1990.
160. Pomerleau, D.A., ALVINN: An Autonomous Land Vehicle in a Neural Network. In:
Advances in Neural Information Processing Systems I, Denver. Eds. D.S. Touretzky,305-
313, San Mateo, Morgan Kaufmann, 1988.
161. Powell, M.J.D., Restart Procedures for the Conjugate Gradient Method. Mathematical
Programming 2, 241-254, 1977.
162. Principe, J.C., Euliano, N.R., Lefebvre, W.C., Neural and Adaptive Systems.
Fundamentals through Simulations. John Willey & Sons, New-York, 2000.
163. Qian, N., Sejnowsky, T.J., Predicting the Secondary Structure of Globular Proteins
Using Neural Networks Models. Journal of Molecular Biology 202, 865-885, 1988.
164. Rashevsky, N., Mathematical Biophysics. University of Chicago Press, 1938.
165. Reid, K., Zeinich, A., Neural Network Resource Guide. AI Expert 6, 50-57, 1992
166. Rice, J.R., The approximation of functions. Addison-Wesley, Reading, Mass, 1964.
298
167. Ritter, H., Schulten, K., Kohonen Self-Organizing Maps: Exploring Their Computational
Capabilities. IEEE International Conference on Neural Networks, San-Diego 1988, vol. I,
109-116, New York, IEEE, 1988
168. Ritter, H., Schulten, K, On the Stationary State of Kohonen's Self-Organizing Sensory
Mapping. Biological Cybernetics, 54, 99-106, 1986
169. Rose, D., Dobson, V.G., eds. Models of the Visual Cortex, Chichester: Willey, 1985.
170. Rosenblatt, F. Principles of Neurodynamics., New-York, Spartan, 1962.
171. Royden, H.L., Real Analysis. 2nd edition. New-York: Macmillan, 1968.
172. Rumelhart, D.E., Hinton, G.E.,Williams, Learning Internal Representation by Error
Propagation, Nature 323, 533-536, 1986.
173. Rumelhart, D.E., Zipser, D., Feature discovery by competitive learning, Cognitive
Science, 9, 75-112, 1985.
174. Rumelhart, D.E., McClelland, J.L., Exploration in the microstructure of Cognition., In:
Parallel Distributed Processing. Vol. 1: Foundations. Eds. J. L. McClelland & D.E.
Rumelhart, MIT Press, 1986.
175. Rumelhart, D.E., Smolensky, P., McClellaand, J.L., Hinton, G.E., Schemata and
Sequential Thought processes in PDP models, In: Parallel Distributed Processing. Vol. 2:
Psychological and Biological Proc. Eds. J.L. McClelland & D.E. Rumelhart, MIT Press,
1986.
176. Sanger, T.D., An Optimality Principle for Unsupervised Learning. Advances in Neural
Information Processing Systems I (Denver 1988), ed. D.S. Toureretzky, 11-19.San
Mateo: Morgan Kaufmann, 1989.
177. Sanger, T.D. Optimal Unsupervised Learning in a Single-Layer Linear Feedforward
Neural Network. Neural Networks 2, 459-473, 1989.
178. Scofield, C.L., Learning Internal Representations in the Coulomb Energy Network. In:
IEEE International Conference on Neural Networks (San-Diego 1988), Vol. I, 271-276,
New-York: IEEE, 1988.
179. Schoenberg, I.J., Metric spaces and positive definite function. Ann. of Math., Vol.44,
522-536, 1938.
180. Schreiber, T., A Voronoi Diagram Based Adaptive K-Means Type Clustering Algorithm
for Multidimensional Weighted Data. Technical Report, Universitat Kaiserslautern, 1989
181. Schwartz, D.B., Salaman, V.K., Solla, S.A., Denker, J.S., Exhaustive Learning. Neural
Computation 2, 371-382, 1990.
182. Schwartz, L., Theorie des Distributions. Paris: Hermann, 1950.
183. Sejnowsky, T.J., Rosenberg, C.R., Parallel Networks that Learn to Pronounce English
Text. Complex Systems 1, 145-168, 1987.
184. Selim, S.Z., Ismail, M.A., K-means type algorithms: A generalized convergence theorem
and characterization of local optimality. IEEE Tran. Pattern Anal. Mach. Intelligence.
PAMI-6, 1, 1986, 81-87, 1986
185. Shaun, M. Lawson. A Preliminary View of Japans High Performance Neurocomputers.
Neurocomputing 4, 127-136. Elsevier, 1992.
186. Solla, S.A., Learning and Generalization in Layered Neural Networks: The Contiguity
Problem. In: Neural Network from Models to Applications, Paris, 1988. Eds. L.
Personnaz, G. Dreyfus, 168-177, Paris, 1989.
187. Steinbuch, K. Die Lernmatrix. Kybernetic 1, 36-45, 1961.
188. Stent, G.S., A physiological mechanism for Hebb's postulate of learning. Proceedings of
the National Academy of Sciences of the USA, 70, 997-1001, 1973.
189. Sutton, R.S., Barto, A.G., Williams, R.J., Reinforcement learning is direct adaptive
control. Proceedings of the American Control Conference, 2143-2146, Boston, 1991.
190. Sutton, R.S., Temporal credit assignment in reinforcement learning, Ph.D. Dissertation,
University of Massachusetts, Amherst, 1984.
191. Szu, H. Iterative Restoration Algorithm for Nonlinear Constraint Computing.
299
192. Taylor, W.K. Electrical Simulation of Some Nervous System Functional Activities. In:
Information Theory, London 1985. Ed. C. Cherry, 314-328. London, 1956.
193. Tikhonov, A.N., Arsenin, V.A., Solutions of Ill-posed Problems. Washington, DC: W.H.
Winston, 1977.
194. Tikhonov, A.N., Solution of incorrectly formulated problems and regularization method.
Soviet Math. Dokl., Vol. 4, 1035-1038, 1963.
195. Valiant, L.G., A theory of learnable. Communication of ACM 27 (11), 1134-1142, 1984.
196. Vapnik, V.N., Chervonenkis, A.Y., On the Uniform Convergence of Relative Frequencies
of Events to Their Probabilities. Theory of Probability and Its Application 16, 264-280,
1971.
197. Vapnik, V.N., Estimations of Dependencies Based on Empirical Data. New-York:
Springer-Verlag, 1982.
198. Vapnik, V.N., Principles of risk minimization for learning theory. In Moodz, J.E.,
Hanson, S.J., Lipmann, R.P. editors: Neural Information Processing Systems 4, 831-838,
San-Mateo, Morgan-Kaufmann, 1992.
199. Vernon, D. Neural Networks and Computer Vision, Preprint. Trinity College, Dublin,
1991.
200. Vogl, T.P., Mangis, J.K., Rigler, A.K., Zink, W.T., Alkon, D.L. Accelerating the
Convergence of the Back-Propagation Method. Biological Cybernetics 59, 257-263,
1988.
201. von Neuman, J., Probabilistic Logistic and the Synthesis of Reliable Organism from
Unreliable Components., In: Automata Studies, eds. C. E. Shannon & J. McCarthy, 43-
98. Princeton, 1956.
202. Watson, D.F., Computing the n-dimensional Delaunay tessellation with application to
Voronoi polytops. Comp. Journal, Vol 24, No. 2, 1981, 172-176, 1981.
203. Wax, N., Selected papers on noise and stochastic processes. Dover Publications, New-
York, 1954.
204. Werbos, P., Beyond Regression: New Tools for Prediction and Analysis in the Behavioral
Science. Ph.D. Thesis, Harvard University, 1974.
205. White, D.A., Learning in artificial neural networks: A statistical perspective. Neural
Computation 1, 425-464, 1989.
206. Widrow, B., Generalization and Information Storage in Networks of Adaline Neurons.
In: Self-Organizing Systems, Chicago. Eds. M. C. Yovits, G.T. Jacobi, G. D. Goldstein,
425-461, Washington, Spartan, 1962
207. Widrow, B., Hoff, M.E., Adaptive Switching circuits., WESCON Convention Record,
Part IV, 96-104, 1960.
208. Wiener, N., Cybernetics or Control and Communication in the Animal and the Machine.
Wiley. New-York, 1948.
209. Willshaw, D.J., Bueman, O.P., Longuet-Higgins, H.C., Non-Holographic Associative
Memory, Nature 222, 960-962, 1969.
210. Wilson, H.R.,Cowan, J.D. A Mathematical Theory of the Functional Dynamics of
Cortical and Thalamic Nervous Tissues. Kybernetic 13, 55-80, 1973.
211. Winograd, S., Cowan, J.D., Reliable Computation in the presence of Noise. MIT Press.
Cambridge, 1963.
212. Wray, J., Green, G.G.R., Neural Networks, Approximation Theory, and Finite Precision
Computation. Neural Networks, Vol. 8, No. 1, 31-37, Pergamon, 1995.
213. Yuille, A., Grzywacz, N., The motion coherence theory. Proceedings of the International
Conference on Computer Vision, 344-354, Washington D. C., IEEE Computer Society
Press, 1988.
214. Yuille, A.L., Kammen, D.M., Cohen, D.S., Quadrature and the Development of
Orientation Selective Cortical Cells by Hebb Rules, Biological Cybernetics 61, 183-194,
1989.
300