Académique Documents
Professionnel Documents
Culture Documents
1. El Perceptron 2. Descenso por gradiente 3. Regla Delta 4. Redes multicapa 5. Funciones de activacin 6. Retropropagacin 7. Computacin evolucionista
c 2002 DIT-ETSIT-UPM
transp. 1
s=1 si (
U) y (
i = 0)
j
c 2002 DIT-ETSIT-UPM
transp. 2
1 x x x
1 2
1 2
c 2002 DIT-ETSIT-UPM
0y
transp. 4
x 1 x2
xn r
Conjunto de entrenamiento:
c 2002 DIT-ETSIT-UPM
transp. 3
w 1
w n x n
11
0y
w 1
w n x n
while (!cond_term) { for (e=0; e<nEj; e++) for (i=0; i<=n; i++) { dw[i] = k*(r[e]-s[e])*x[i][e]; w[i] = w[i] + dw[i]; } } x[i][e] = xi para el ejemplo e
c 2002 DIT-ETSIT-UPM
transp. 5
n algoritmo de refuerzo
c 2002 DIT-ETSIT-UPM
xn
transp. 6
c 2002 DIT-ETSIT-UPM
c 2002 DIT-ETSIT-UPM
wi
K re
se xie
E wi
1 2 wi
re
se
re
Como se
w xe , se xie
E w
1 2
re
se 2 ;
E w0
E wn
K E
E w0
E wn
Elemento lineal: y x
sx
w x
E
w 2
w 1
transp. 7
K E
transp. 8
while (!cond_term) { for (i=0; i<=n; i++) dw[i] = 0; for (e=0; e<nEj; e++) for (i=0; i<=n; i++) dw[i] = dw[i] + k*(r[e]-s[e])*x[i][e]; for (i=0; i<=n; i++) w[i] = w[i] + dw[i]; } x[i][e] es xie: valor de la entrada i para el ejemplo e
while (!cond_term) { for (e=0; e<nEj; e++) for (i=0; i<=n; i++) w[i] = w[i] + k*(r[e]-s[e])*x[i][e]; }
c 2002 DIT-ETSIT-UPM
0 1 ):
1 2
re
c 2002 DIT-ETSIT-UPM
transp. 9
se
transp. 10
Delta aproxima Gradiente para K sucientemente pequeo, y requiere menos computacin Si hay varios mnimos (funciones de activacin no lineales), Delta mejor que Gradiente para evitar mnimos locales Perceptrn usa el error (discreto) a la salida del umbral; Gradiente/Delta, el error (continuo) de la combinacin lineal de entradas Perceptrn converge tras un nmero nito de iteraciones a una hiptesis (w) que clasica perfectamente los ejemplos siempre que stos sean linealmente separables Gradiente/Delta convergen asintticamente a una hiptesis de mnimo error (local) aunque los ejemplos no sean linealmente separables (Demostraciones en Hertz et al., 1991)
c 2002 DIT-ETSIT-UPM
transp. 11
Redes multicapa
Perceptron y otras funciones de activacin con una sola capa: limitacin por la condicin de separabilidad lineal Se pueden conseguir supercies no lineales con una red de varias capas? Para funciones lgicas, s (ejemplo tpico: ORX) Pero no con el algoritmo del gradiente ni la regla delta: la red seguira siendo lineal Con funciones de activacin no lineales? (como el Perceptron) Nuestra opinin personal es que la extensin es estril (Minsky y Papert, 1969)
c 2002 DIT-ETSIT-UPM
transp. 12
Problema del entrenamiento: asignacin de mrito (credit assignment) Mrito (o responsabilidad) de un peso (wi j : E medida de su contribucin al error global ( w ) Dicultad con el Perceptron: la funcin de activacin no es diferenciable Se necesita una neurona con funcin de activacin no lineal, para conseguir supercies no lineales
ij
c 2002 DIT-ETSIT-UPM
w x ij ij
("net ") j
c 2002 DIT-ETSIT-UPM
wi j
K j xi j , con j
rj
sj sj 1
sj
transp. 14
rj
sj
rj
sj
rj
sj sj 1
Ee y j
E wi j
E y j
xi j
s j y j
ds dy
sy
E wi j
transp. 13
s(y j) =
1 -y 1+e j
sy
sj
wi j : peso de la conexin de la neurona i a la j j : factor de error de la neurona j e: ndice sobre los ejemplos l : ndice sobre las neuronas de salida h r: ndices sobre neuronas ocultas
Para varias neuronas de salida el error global de una hiptesis w es:
c 2002 DIT-ETSIT-UPM
r: capa c+1
c 2002 DIT-ETSIT-UPM
sh 1
sh
sh 1
sh l whl l
whr r
Neuronas de salida: l
sl
sl
rl
Ee y j
sl
Ee wi j
Regla delta: Ee w
rle
Gradiente: E w
1 2 e l 1 2 l
rle
sle sle
2 2
transp. 15
K j xi j , con
transp. 16
c 2002 DIT-ETSIT-UPM
transp. 17
c 2002 DIT-ETSIT-UPM
transp. 18
c 2002 DIT-ETSIT-UPM
transp. 19
Redes multicapa: ejemplo Una capa oculta: supercies convexas Dos capas ocultas: supercies arbitrarias Ejemplo: reconocimiento de 10 sonidos vocales en el contexto h_d (Huang y Lippmann, 1988)
4000
head
heed
hid
2000 F2 (Hz)
1000
F 2
hud hod
whod
500 0 500
hawed
1000 F1 (Hz) 1400
hood
c 2002 DIT-ETSIT-UPM
transp. 20
Ontognesis Modelos neurocibernticos Filognesis Modelos evolucionistas Al n y al cabo, no hay tantas tcnicas informticas que hayan demostrado su valor a lo largo de 3.000 millones de aos de pruebas de campo (Forsyth, 1986)
reproduccin mutaciones
c 2002 DIT-ETSIT-UPM
c 2002 DIT-ETSIT-UPM
transp. 21
La evolucin como modelo Primeras ideas: Generacin de mutaciones al azar sobre el cdigo binario de programas (Frieldberg, 1958) Actualmente, nfasis en otros mecanismos genticos, p. ej., trueque de genes (crossover) Computacin evolucionista: Algoritmos genticos: individuos = cadenas de bits Programacin gentica: individuos = rboles sintcticos de los programas
transp. 22
Operadores genticos:
Mutacin (cambio de un bit con probabilidad pequea) Seleccin de las parejas reproductoras (probabilidad proporcional al valor de la funcin)
Nueva generacion: los hijos sustituyen a los individuos menos adaptados Convergencia: cuando hay muchos valores iguales La mutacin sirve para resolver el problema de los mximos locales
c 2002 DIT-ETSIT-UPM
xn en binario
xn
transp. 23