Gonzalez Trabajofinaldeespecialidad

APRENDIZAJE Y PLANIFICACIN
EN
SISTEMAS INTELIGENTES AUTNOMOS
Alumno
Lic. Ezequiel GONZLEZ
Directores
Dr. Ramn Garca-Martnez (UNLa) y Mg. Daro RODRIGUEZ (UNLa)
TRABAJO FINAL PRESENTADO PARA OBTENER EL GRADO

DE
ESPECIALISTA EN INGENIERA EN SISTEMAS DE INFORMACIN
ESCUELA DE POSGRADO
FACULTAD REGIONAL DE BUENOS AIRES
UNIVERSIDAD TECNLOGICA NACIONAL
Diciembre, 2013
RESUMEN
La caracterstica ms importante de un sistema inteligente autnomo es su capacidad de: (i) extraer
informacin del entorno para conformar una base de conocimiento propia, (ii) planificar sus acciones
y auto proponerse objetivos a partir de las situaciones percibidas y de las experiencias almacenadas,
y (iii) ejecutar las acciones seleccionadas y retroalimentar su base de conocimiento a partir de las
situaciones resultantes. Dado que este tipo de sistemas permite su implementacin en entornos donde
el conocimiento inicial sobre el dominio es nulo, su aplicacin abarca una amplia variedad de casos.
La robustez de estos modelos, cuyo aprendizaje surge de la interaccin con el entorno, se debe a que
permiten integrar los procesos de planificacin, ejecucin y aprendizaje en un ciclo cerrado.
En este contexto, se presenta una revisin de los mtodos de aprendizaje y planificacin de dichos
sistemas, haciendo foco en aquellos basados en la creacin de teoras para representar el entorno y
planificar sus acciones. Luego de una descripcin de los modelos ms relevantes, clasificados segn
la fuente de su conocimiento, la investigacin se centra en el modelo LOPE y en las modificaciones
que se le han aplicado en la ltima dcada.
Palabras clave: sistemas inteligentes autnomos, aprendizaje por interaccin con el entorno,
exploracin, planificacin, formacin y revisin de teoras, aprendizaje por refuerzo.
ABSTRACT
The main feature of autonomous intelligent systems is its ability to: (i) extract information from the
environment in order to elaborate its own knowledge base, (ii) plan its actions and self-propose goals
based on the perceived situations and past experiences, and (iii) execute selected actions and provide
feedback to its knowledge base from the resulting situations. Given that this type of systems allow its
implementation on environments with no initial knowledge, it is possible to apply them on a wide
range of cases. The robustness of these models, which learning emerge from its interaction with the
environment, is due to the integration of the planning, execution and learning process in a close loop.
In this context, a review of learning and planning methods of this kind of systems is presented,
focusing on those based on theory creation to represent the environment and to plan its actions. After
a description of the most relevant architectures classified according to the source of their knowledge,
the research focus on the LOPE model and the changes that have been applied to it in the last decade.
Key words: autonomous intelligent systems, environment-interaction based learning, exploration,

planning, theory creation and revision, reinforcement learning.
NDICE APRENDIZAJE Y PLANIFICACIN EN SISTEMAS INTELIGENTES AUTNOMOS
NDICE
1. INTRODUCCIN 1
1.1 OBJETIVO Y METODOLOGA DEL TRABAJO 1
1.2 AGENTES INTELIGENTES 1
1.2.1 Inteligencia y Aprendizaje 3
1.2.2 Caractersticas del Entorno 4
1.3 SISTEMA INTELIGENTE AUTNOMO 5
2. ESTADO DE LA CUESTIN 7
2.1 APRENDIZAJE AUTOMTICO 7
2.1.1 Taxonoma del Aprendizaje 7
2.1.2 Aprendizaje por Observacin y Descubrimiento 8
2.1.3 Aprendizaje por Interaccin con el Entorno 8
2.1.4 Exploracin 9
2.1.5 Aprendizaje por Refuerzo 9
2.2 SISTEMAS CON CONOCIMIENTO INCORPORADO POR
EL PROGRAMADOR Y AJUSTADO POR EL SISTEMA 11
2.2.1 Sistema de Hayes-Roth 11
2.2.2 PRODIGY/EXPERIMENT 12
2.3 SISTEMAS CON CONOCIMIENTO INCORPORADO POR EL SISTEMA 15
2.3.1 Sistema Inteligente Autnomo 15
2.3.2 LIVE 17
2.3.3 Sistema de Christiansen 19
2.4 EL MODELO LOPE 20
2.5 EXTENSIONES O MODIFICACIONES AL MODELO LOPE 24
2.5.1 SIA con aprendizaje basado en Intercambio de Operadores 24
2.5.2 SIA con ciclo de vida de Aprendizaje 26
2.5.3 Mtodo de Ponderacin basado en la productoria de
probabilidad de xito de acciones 27
2.5.4 Algoritmos Genticos aplicados a los SIA 28
3. CONCLUSIONES 31
3.1 RESUMEN DE LOS RESULTADOS DEL TRABAJO 31
3.2 FUTURAS LNEAS DE INVESTIGACIN 32
TRABAJO FINAL DE ESPECIALIZACIN EN ING. EN SISTEMAS DE INFORMACIN EZEQUIEL GONZLEZ

i
3.2.1 Evaluacin de los Planes Ejecutados 32

3.2.2 ndice de Confiabilidad Dinmico 33
4. REFERENCIAS 35

ii
NDICE DE FIGURAS
Figura 1 Agente que interacta con el medioambiente 2

Adaptado de [Russel y Norvig, 1995]
Figura 2.1 Esquema bsico del aprendizaje por Refuerzo 10
Adaptado de [Sutton y Barto, 1998]
Figura 2.2 Arquitectura del sistema propuesto por Hayes-Roth 11
[Garca-Martinez, 1997]
Figura 2.3 Esquema del Sistema Inteligente Autnomo 16
Figura 2.4 Arquitectura del modelo LOPE 21
Adaptado de [Garca-Martinez y Borrajo, 1997; 2000]
Figura 2.5 El Robot Explorador y su sistema sensor 21
Adaptado de [Garca-Martinez y Borrajo, 1997]
Figura 2.6 Ciclo de Observacin-Planificacin-Ejecucin-Aprendizaje del modelo LOPE 23
Adaptado de [Garca-Martinez, 1997]
Figura 2.7 SIA con aprendizaje basado en formacin y ponderacin de teoras 25
[Ierache, 2010]
Figura 2.8 Ciclo de Vida de Aprendizaje del Sistema Inteligente Autnomo 27
Adaptado de [Ierache et al., 2008]
Figura 2.9 Arquitectura del SIA con la implementacin del Algoritmo Gentico 29
[Steinhilber, 2009]

iii

iv
NDICE DE TABLAS
Tabla 1 Casos de Refinamiento de EXPERIMENT 14


v

vi
NOMENCLATURA APRENDIZAJE Y PLANIFICACIN EN SISTEMAS INTELIGENTES AUTNOMOS
NOMENCLATURA
AG Algoritmo Gentico
BIO Operadores Integrados (por sus siglas en ingls Built-In Operators)
EBL Aprendizaje basado en Explicaciones (por sus siglas en ingls Explanation-based
Learning)
LOPE Modelo de Aprendizaje a partir de la Observacin en ambientes de Planificacin (por
sus siglas en ingls Learning by Observation in Planning Environments)
LOPE-LLC Modelo LOPE con ciclo de vida de aprendizaje (por sus siglas en ingls Learning by
Observation in Planning Environments Learning Life Cycle)
SIA Sistema Inteligente Autnomo
TBO Operadores basados en Entrenamiento (por sus siglas en ingls Trained Based
Operators)
WIO Operadores de Interaccin Global (por sus siglas en ingls World Interaction
Operators)

vii
NOMENCLATURA APRENDIZAJE Y PLANIFICACIN EN SISTEMAS INTELIGENTES AUTNOMOS

viii
INTRODUCCIN APRENDIZAJE Y PLANIFICACIN EN SISTEMAS INTELIGENTES AUTNOMOS
1. INTRODUCCIN
En este captulo se presenta el objetivo y la metodologa del trabajo (seccin 1.1), algunas
definiciones bsicas sobre los agentes inteligentes (seccin 1.2) y una breve presentacin a los
sistemas inteligentes autnomos (seccin 1.3).
1.1 OBJETIVO Y METODOLOGA DEL TRABAJO
El objetivo del presente trabajo es elaborar un estado de la cuestin sobre los procesos de aprendizaje
y planificacin en sistemas inteligentes autnomos, particularmente en aquellas arquitecturas basadas
en la formacin y ponderacin de teoras.
El contenido del trabajo se estructura del siguiente modo. En el captulo 1 se brinda una breve
introduccin al concepto de agente inteligente (seccin 1.2) y se da una primera definicin de
sistema inteligente autnomo (seccin 1.3). En el captulo 2 se elabora una revisin de los mtodos
de aprendizaje y planificacin utilizados en los sistemas basados en la creacin de teoras para
representar su entorno. Para ello, se considera necesaria la inclusin de una taxonoma del
aprendizaje y la introduccin a ciertos conceptos claves relacionados al aprendizaje automtico
(seccin 2.1). A continuacin se describen algunos sistemas en los que el conocimiento del dominio
es incorporado por el programador y ajustado por el sistema (seccin 2.2); se presentan tres
arquitecturas en las que el conocimiento del dominio es incorporado directamente por el sistema
(seccin 2.3); se describe el modelo LOPE [Garca-Martinez y Borrajo, 2000] (seccin 2.4); y se
detallan todas las modificaciones o extensiones que se le han aplicado a dicho modelo en el
transcurso de los ltimos aos (seccin 2.5). Por ltimo, en el captulo 3 se presentan las
conclusiones del proyecto de investigacin. Primero se elabora un resumen de los resultados del
trabajo (seccin 3.1) y luego se sealan las oportunidades de mejora encontradas en el modelo LOPE
y las futuras lneas de investigacin propuestas (seccin 3.2).
1.2 AGENTES INTELIGENTES
A pesar de que no hay una definicin universalmente aceptada para el concepto de agente, s existe
un consenso general acerca de una caracterstica fundamental que debe presentar, esta es la
autonoma [Wooldridge, 2011]. De acuerdo con dicho autor, la definicin ms adecuada sera la
siguiente:

1
Un agente es un sistema informtico que interacta en un determinado medioambiente y que es

capaz de llevar adelante acciones autnomas en dicho medio, con el fin de cumplir sus
objetivos
El concepto de autonoma se refiere a la capacidad de decidir qu acciones tomar para la consecucin

de los objetivos, y est estrechamente vinculado a la informacin almacenada que posee el agente. Es
decir, para decidir qu acciones tomar, el agente debe contar con una base de conocimiento que le
permita decidir sobre la secuencia de acciones a ejecutar. Esta informacin puede ser proporcionada
por el diseador, puede ser aprendida por el propio agente o puede ser una mezcla de ambas cosas.
Otra definicin [Russel y Norvig, 1995], que involucra algunos trminos propios de la inteligencia
artificial, es la siguiente:
Un agente es cualquier unidad capaz de percibir su entorno a travs de sensores y actuar en ese
medio utilizando actuadores
Un agente humano, por ejemplo, posee cinco sentidos para percibir (la vista, el odo, el olfato, el
tacto y el gusto) y manos, piernas y boca para actuar. Por otra parte, un agente de software recibe
archivos, paquetes va red y entradas a travs del teclado; y acta sobre el medio mostrando mensajes
en el monitor, creando archivos o enviando paquetes. La figura 1 ilustra esta simple idea.
Figura 1 Agente que interacta con el medioambiente a travs de sus sensores y actuadores
Parte de la dificultad en tratar de dar una definicin general para el concepto de agente radica en que
en la mayora de los casos se le suele agregar atributos que slo aplican al dominio particular en el
que se est trabajando. Por ejemplo, para muchas aplicaciones, que el agente tenga la capacidad de
aprender de sus experiencias es de vital importancia, sin embargo hay algunos casos en los que no

2
slo es indistinto sino que tampoco es deseable (ej.: sistema de control de trnsito areo) [Russel y
Norvig, 1995].
1.2.1 Inteligencia y Aprendizaje
Ahora bien, qu caracterstica tiene que presentar un agente para ser considerado inteligente? Un
agente racional o inteligente es aquel que hace lo correcto, y hacer lo correcto es aquello que le es
ms conveniente, o en trminos ms concretos, aquello que le permite al agente obtener el mejor
resultado [Russel y Norvig, 1995]. Sin embargo, para evaluar si un resultado es mejor o peor que
otro es necesaria una medida de rendimiento, pero obviamente no hay una nica medida de
rendimiento ptima para todos los agentes. Si se otorga la responsabilidad de la evaluacin de sus
acciones al mismo agente, muchos de ellos seran incapaces de responder o simplemente se
engaaran a s mismos. Por lo tanto, es importante la insistencia en medidas de rendimiento
objetivas, que normalmente sern determinadas por el diseador del sistema.
Un agente inteligente es aquel que toma acciones inteligentes (acciones que le permiten alcanzar el
mayor rendimiento), y para poder establecer si una accin ejecutada lo fue, hay que analizar cuatro
factores [Russel y Norvig, 1995]:
- la medida de rendimiento que define el criterio de xito

- el conocimiento del medio acumulado por el agente
- las acciones que el agente puede llevar a cabo
- la secuencia de percepciones del agente hasta ese momento
En definitiva, y resumiendo lo descrito previamente, una definicin adecuada [Russel y Norvig,

1995] sera la siguiente:
un agente inteligente es aquel que emprender aquella accin que supuestamente maximice
su medida de rendimiento, basndose para ello, en las evidencias aportadas por la secuencia
de percepciones y en el conocimiento que el agente mantiene almacenado
Esta definicin no supone omnisciencia (que el agente conozca el resultado de cada accin) ya que la
accin racional depende del conocimiento disponible al momento de la toma de decisin; pero s
implica que el agente aprenda lo mximo posible de la informacin recopilada para evitar incurrir en
un mal hbito a futuro. Un agente inteligente es aquel que, en la medida que van incrementndose las
interacciones con el medioambiente, logra apoyarse ms en el conocimiento surgido a partir de sus
propias percepciones que en el conocimiento inicial. Dicha cualidad es un requisito fundamental para

3
ser llamado agente inteligente, como tambin lo es que aprenda a compensar el conocimiento
incompleto o parcial inicial cuando la toma de decisiones lo requiera.
El modelo LOPE [Garca-Martinez y Borrajo, 2000], que se presenta en el siguiente captulo,
presenta un comportamiento inteligente y autnomo, ya que se ubica en la categora de los sistemas
cuyo conocimiento del dominio es incorporado directamente por el sistema, es decir, aprenden desde
cero.
1.2.2 Caractersticas del Entorno
Al momento de disear un agente inteligente autnomo es imprescindible conocer las propiedades

del entorno con el cual va a interactuar. En [Russel y Norvig, 1995] se postulan varias categoras
para definir el medioambiente, a saber:
- Totalmente observable vs. Parcialmente observable: si los sensores del agente le

proporcionan un conocimiento completo del medio entonces se dice que el entorno es
totalmente observable. Es decir, para que sea totalmente observable los sensores debern
poder adquirir todos los aspectos relevantes para la toma de decisiones. Los entornos
parcialmente observables pueden serlo debido al ruido de la informacin o a la baja calidad
de los sensores.
- Determinista vs. Estocstico: se dice que el entorno es determinista si el siguiente estado del
medio est totalmente determinado por el estado actual y la accin ejecutada por el agente.
En caso contrario se lo llama estocstico.
- Esttico vs. Dinmico: si el entorno puede cambiar mientras el agente est en el proceso de
planificacin, entonces el entorno es dinmico para el agente; caso contrario, se lo define
como esttico. Los medios estticos son fciles de tratar ya que el agente no necesita estar
pendiente del medioambiente mientras est tomando una decisin.
- Discreto vs. Continuo: un ambiente es discreto si hay una cantidad finita y fija de acciones y
percepciones relacionadas a l.
El caso ms complejo sera el de un entorno de trabajo parcialmente observable, estocstico,

dinmico y continuo y, de hecho, la mayora de las situaciones reales son de este tipo. Dada la
complejidad que implica un medioambiente de este tipo, los diseadores de sistemas generalmente
intentan resolver el problema que los atae a partir de una especificacin del medio lo ms simple

4
posible. El modelo LOPE citado anteriormente supone un entorno esttico, que es parcialmente
observado por el sistema y que es representado de manera discreta y estocstica.
1.3 SISTEMA INTELIGENTE AUTNOMO
De acuerdo a lo descrito previamente y obviando por el momento la primera definicin formal del
concepto [Fritz et al., 1989], se entiende que un sistema inteligente autnomo es aquel que posee las
siguientes caractersticas:
i) percibe su entorno a travs de sus sensores y lo conceptualiza

ii) acta en el medio utilizando sus actuadores y lo hace en funcin de sus objetivos
iii) sus objetivos se basan en la medida de rendimiento predefinida
iv) posee una base de conocimiento sobre el dominio almacenada en memoria, la cual es
principalmente aportada por el propio sistema
v) planifica sus acciones teniendo en cuenta la situacin percibida, sus objetivos y las
experiencias almacenadas
vi) ejecuta las acciones seleccionadas y se retroalimenta a partir de la observacin de las
situaciones resultantes, alcanzadas a partir de la ejecucin de las acciones.
La arquitectura LOPE cumple con estos requisitos. Dicho modelo es un sistema inteligente autnomo
que integra el proceso de planificacin, aprendizaje y ejecucin en un ciclo cerrado. El mismo puede
ser descrito como un robot explorador que percibe el entorno, a partir de lo percibido registra una
situacin y arma una teora local, planifica las acciones que llevar a cabo, ejecuta las acciones sobre
el entorno y aprende a partir de su interaccin con l.

5

6
ESTADO DE LA CUESTIN APRENDIZAJE Y PLANIFICACIN EN SISTEMAS INTELIGENTES AUTNOMOS
2. ESTADO DE LA CUESTION
En este captulo se incluye una introduccin al aprendizaje automtico (seccin 2.1), se presenta una
resea de los sistemas cuyo conocimiento del dominio es incorporado por el programador y ajustado
por el sistema (seccin 2.2) y de aquellos sistemas en los que el conocimiento del dominio es
incorporado enteramente por el sistema (seccin 2.3). Luego se describe en detalle el modelo LOPE
(seccin 2.4) y, por ltimo, se presentan las extensiones o modificaciones a dicho modelo, elaboradas
a lo largo de la ltima dcada (seccin 2.5).
2.1 APRENDIZAJE AUTOMTICO
En la presente seccin se presenta una taxonoma del aprendizaje (seccin 2.1.1), se describe el
aprendizaje por observacin y descubrimiento (seccin 2.1.2) y el aprendizaje por interaccin con el
entorno (seccin 2.1.3). Por ltimo, se presenta el concepto de exploracin (seccin 2.1.4) y el de
aprendizaje por refuerzo (seccin 2.1.5).
2.1.1 Taxonoma del Aprendizaje
Con base en la resea formulada en la tesis doctoral del Dr. Ramn Garca-Martinez [1997], se
presenta una posible taxonoma sobre aprendizaje [Carbonell et al., 1983; Michalski, 1986;
Kodratoff, 1988; Michalski y Kodratoff, 1990]:
- Aprendizaje por memorizacin

- Aprendizaje por instruccin
- Aprendizaje por deduccin
- Aprendizaje por analoga
- Aprendizaje por induccin
o Aprendizaje por ejemplos
o Aprendizaje por observacin-descubrimiento
Observacin pasiva
Experimentacin activa
En este trabajo se obviarn las explicaciones relacionadas a las primeras cuatro categoras y se
focalizar en el aprendizaje por induccin. El aprendizaje inductivo tiene como objetivo obtener
nuevo conocimiento a partir de hechos u observaciones. Es decir, este nuevo conocimiento no debe

7
estar de forma implcita dentro del conocimiento disponible. Se pueden mencionar como tipos de
aprendizaje inductivo al (i) aprendizaje por ejemplos y al (ii) aprendizaje por observacin y
descubrimiento. En el prximo inciso se describe con mayor detalle ste ltimo tipo de aprendizaje.
2.1.2 Aprendizaje por Observacin y Descubrimiento
El aprendizaje por observacin y descubrimiento tambin recibe el nombre de aprendizaje no

supervisado. Es una forma generalizada de aprendizaje inductivo que incluye sistemas de
descubrimiento, tareas de formacin de teoras o creacin de criterios de clasificacin en jerarquas
taxonmicas.
El aprendizaje no supervisado requiere que el agente aprendiz realice ms inferencias que en
cualquier otro tipo de aprendizaje descrito. No recibe instancias particulares de un concepto
particular, sino que debe clasificar la entrada de la informacin para formar conceptos. Es decir, las
observaciones contienen conceptos que deben ser adquiridos.
Este tipo de aprendizaje puede clasificarse en trminos de la interaccin con el entorno. Los puntos
extremos de esta clasificacin son:
- Observacin Pasiva: donde el aprendiz clasifica y taxonomiza las observaciones de los

mltiples aspectos del entorno.
- Experimentacin Activa: donde el aprendiz perturba el entorno y observa los resultados de
esta perturbacin. Las perturbaciones pueden ser aleatorias, guiadas por el inters o guiadas
por restricciones.
2.1.3 Aprendizaje por Interaccin con el Entorno
De acuerdo a [Garca-Martinez, 1997], la cantidad de tiempo requerido para programar el

equivalente de la inteligencia humana es prohibitivamente alto. Un enfoque alternativo [Bock, 1985]
apunta a que los sistemas aprendan a resolver problemas a travs de un proceso iterativo de
interaccin con el entorno basado en ensayo-error, de la misma manera que los humanos.
Para resolver un problema representado por un estado determinado del entorno, el sistema genera una
respuesta basada en su experiencia. El entorno evala la correccin de la respuesta y enva esta
evaluacin al sistema. El proceso previo se repite hasta que la respuesta del sistema converge a la
respuesta correcta.
Existen dos tipos de sistemas que incorporan conocimiento por interaccin con su entorno que se
diferencian en el origen de la informacin: aquellos donde el conocimiento sobre el dominio es

8
incorporado por el programador y ajustado por el sistema y aquellos donde el conocimiento sobre el
dominio es incorporado por el sistema. En las secciones posteriores se presentan dos arquitecturas
pertenecientes al primer caso (seccin 2.2) y tres modelos del segundo tipo (seccin 2.3, 2.4 y 2.5).
2.1.4 Exploracin
La exploracin (o bsqueda en lnea) es una forma de experimentacin activa donde el aprendizaje

se lleva a cabo a partir de la interaccin con el entorno. Es el descubrimiento de las propiedades del
medio con el que interacta el agente, como consecuencia de la ejecucin de acciones y de la
observacin de los estados alcanzados luego de su ejecucin. Al explorar, el agente ejecuta una
accin, observa el entorno y luego planifica la siguiente accin. Y as sucesivamente.
La exploracin se suele llevar a cabo en medios estocsticos y/o dinmicos. En este tipo de entornos,
los estados y acciones futuras son desconocidos para el agente. Aqu, el agente debe usar sus
acciones como experimentos para determinar qu hacer despus, y a partir de ah, intercalar la
planificacin y la accin.
El ejemplo bsico de exploracin es un robot que es posicionado en un terreno nuevo (finito), el cual
debe ser explorado para construir una especie de mapa del mismo (exploracin espacial). Este
mapa equivaldra al conjunto de experiencias (percepciones) almacenadas en forma de tabla, y
cada unidad de experiencia se representara como una tupla cuyos elementos seran: la situacin
inicial, la accin ejecutada y la situacin resultante.
Los problemas de exploracin pueden resolverse nicamente por un agente que ejecuta acciones,
ms que por un proceso puramente computacional [Russel y Norvig, 1995]. Despus de cada accin,
el agente explorador recibe una nueva percepcin (obtiene un nuevo resultado) y a partir de esta
nueva informacin logra mejorar el mapa del medioambiente. En cada nuevo instante se utiliza la
ltima actualizacin del mapa para decidir dnde ir despus, es decir, para elegir que accin tomar.
2.1.5 Aprendizaje por Refuerzo
El aprendizaje por refuerzo se fundamenta en la psicologa conductista. Se basa en la simple

observacin de que el hecho de recompensar conductas consideradas deseables y castigar aquellas
indeseables, llevan a un cambio en el comportamiento. El trmino aprendizaje por refuerzo fue
introducido en la Inteligencia Artificial en los primeros trabajos de Minsky [1954; 1963; Minsky y
Selfridge, 1961]. Segn el autor, el problema de este tipo de aprendizaje consiste en asignar premios
y castigos a las acciones que el sistema realiza sobre su entorno.

9
El objetivo de un agente basado en refuerzo es descubrir la mejor relacin entre los distintos estados
del entorno y la ejecucin de las acciones, de forma tal de maximizar la seal de refuerzo. La forma
de lograr dicho objetivo es implementando el mtodo de prueba y error. Es decir, en este tipo de
aprendizaje el agente debe descubrir cules son las acciones que le generan una mayor recompensa y,
para ello, el nico mtodo posible es probndolas. En la mayora de los casos, las acciones ejecutadas
no slo influyen en el refuerzo inmediatamente posterior sino en los que percibir ms adelante.
Estas dos caractersticas, prueba-error y refuerzo retardado, son los rasgos ms distintivos del
aprendizaje por refuerzo.
En la figura 2.1 [Sutton y Barto, 1998] se describe la dinmica bsica de este tipo de aprendizaje. En
el momento t el agente se encuentra en el estado st y con un refuerzo rt. La ejecucin de la accin at
resulta en una refuerzo rt+1 (puede ser una recompensa o castigo) y en un pasaje hacia el estado st+1.
Figura 2.1 - Esquema bsico del aprendizaje por Refuerzo
Uno de los retos que se plantea el aprendizaje por refuerzo es el equilibrio entre la exploracin y la
explotacin. El conflicto de intereses es claro: por un lado el agente prefiere llevar a cabo las
acciones que se han ejecutado en el pasado y cuyas recompensas han demostrado ser altas; y por otro
lado, es evidente que para descubrir este tipo de acciones debe probar acciones que no se han
probado an. En otras palabras, el agente debe explotar lo que sabe hasta el momento para obtener
recompensas altas, pero tambin debe explorar nuevas acciones para conseguir acciones que en el
futuro le generen recompensas altas. Lo que se produce es un conflicto entre la recompensa de corto
plazo y la de largo plazo. El dilema consiste en que ninguna de ambas tareas puede ser ejecutada de
forma exclusiva sin que la otra falle. Por lo tanto, el agente deber balancear entre una tarea y la otra
para obtener el mejor rendimiento, y para ello tendr que ir probando una variedad de acciones
nuevas y de forma progresiva ir inclinndose hacia aquellas que lo recompensen mejor.

10
2.2 SISTEMAS CON CONOCIMIENTO INCORPORADO POR EL

PROGRAMADOR Y AJUSTADO POR EL SISTEMA
En esta seccin se presentan dos sistemas en donde el conocimiento del dominio es incorporado por
el programador y ajustado por el sistema. Ellos son: el sistema de Hayes-Roth (seccin 2.2.1) y el
sistema PRODIGY/EXPERIMENT (seccin 2.2.2).
2.2.1 Sistema de Hayes-Roth
Para aprender en un mundo real, dinmico y observable, un sistema necesita formular una teora
[Hayes-Roth, 1983] sobre los efectos de las acciones sobre su entorno. Hayes-Roth llam teoras al
conocimiento que encapsula los efectos de las acciones. Un sistema de este tipo necesita construir
planes, monitorear la ejecucin de esos planes para detectar expectativas no cumplidas y diagnosticar
y rectificar errores [Garca-Martinez, 1997]. La arquitectura del sistema se presenta en la figura 2.2.
Figura 2.2 Arquitectura del sistema propuesto por Hayes-Roth
En la medida que el agente interacta con el medioambiente (gana experiencia), el conocimiento

almacenado sobre el entorno evoluciona gradualmente. En un sistema de este tipo, la informacin
ganada y almacenada se estructura en forma de teoras.
Para alcanzar sus objetivos, el sistema utiliza el conocimiento almacenado. Un plan generado por el
sistema a partir de un conjunto de teoras, queda justificado si, al aplicarse al estado inicial, alcanza

11
el estado objetivo. Si el plan falla, se supone implcitamente que hubo un error en las teoras
asociadas. Las causas ms usuales de fallo de planes son las siguientes [Garca-Martinez, 1997]:
- Un plan fue injustificado, de acuerdo a las teoras y supuestos del sistema

- Un plan justificado previo no predijo cambios en las teoras asociadas
- La justificacin de un plan fue equivocada
El sistema planifica para alcanzar sus objetivos y a su vez emplea mtodos heursticos para rectificar
los errores de las teoras vigentes. Esta rectificacin puede llevarse a cabo agregado o quitando
restricciones. Para llevar adelante esta tarea de mejoramiento de las teoras locales aplicadas al
proceso de planificacin, Hayes-Roth [1983] propone alguna de las siguientes heursticas:
- Retraccin: restringe las predicciones de la teora para que sea consistente con las
observaciones
- Exclusin: excluye la teora que fue aplicada a la situacin asociada al fallo
- Invalidacin: desecha las situaciones que niegan las predicciones de la teora
- Aseguracin: incluye las situaciones que confirman las predicciones de la teora
- Inclusin: restringe la teora incluyendo los casos que la confirman
Estas heursticas son la base de gran parte del trabajo vinculado al aprendizaje dentro de la
inteligencia artificial en general [Salzberg, 1985].
2.2.2 PRODIGY / EXPERIMENT
El sistema PRODIGY [Carbonell et al., 1990; Veloso et al., 1995] es un solucionador de problemas
de uso general y tambin un planificador. A partir de una situacin inicial definida, busca la mejor
secuencia de operadores (mejor plan) para poder alcanzar su objetivo. Dicha bsqueda es guiada por
un conjunto de reglas de control que se aplican en cada punto de decisin.
Como PRODIGY intenta resolver un problema, debe tomar decisiones sobre qu nodo expandir,
sobre qu objetivo trabajar, qu operador aplicar, y qu objetos usar. Estas decisiones pueden ser
influenciadas por un control de reglas para incrementar la eficiencia de la bsqueda de solucin del
problema y para mejorar la calidad de las soluciones que se encuentran.
A continuacin se enumeran los componentes propuestos, a partir de los cuales se articula el
aprendizaje:
- Aprendiz (Apprentice): una interface de usuario que puede participar en un dilogo parecido
al de un aprendiz [Joseph, 1989], permitiendo al usuario evaluar y guiar la resolucin de

12
problemas y el aprendizaje del sistema. La interface es grfica y est vinculada directamente

al solucionador de problemas, de manera que los dos puedan adquirir conocimiento del
dominio o aceptar consejos mientras el sistema est resolviendo un problema.
- Mdulo de Aprendizaje basado en Explicaciones (EBL) [Minton, 1988; 1990]: que permite
adquirir reglas de control partiendo de la traza de resolucin de un problema. Las
explicaciones son construidas a partir de una teora axiomtica que describe tanto el dominio
como los aspectos ms relevantes de la arquitectura del solucionador de problemas.
- Mdulo de aprendizaje de reglas de control a partir de la descripcin del dominio (STATIC)
[Etzioni, 1990]: que analiza las descripciones del dominio y genera las reglas de control sin la
utilizacin de ejemplos de entrenamiento.
- Mdulo de Analoga Derivacional (Analogy) [Veloso y Carbonell, 1990]: que reutiliza
soluciones de problemas ya resueltos para resolver problemas futuros. El solucionador de
problemas guarda las justificaciones de cada decisin durante su proceso de bsqueda. Estas
justificaciones son usadas luego para guiar la reconstruccin de los prximos casos de
resolucin de problemas donde existen justificaciones similares.
- Alpine: un mdulo de aprendizaje y planificacin de abstracciones [Knoblock, 1994]. El
conocimiento axiomatizado del dominio es dividido en mltiples niveles de abstraccin.
Luego, durante la resolucin del problema, PRODIGY primero encuentra una solucin en un
espacio abstracto y despus usa esta solucin para guiar la bsqueda de soluciones en
espacios ms concretos.
- Mdulo de aprendizaje por experimentacin (EXPERIMENT) [Carbonell y Gil, 1990]: que
refina el conocimiento sobre el dominio que es incompleto o que est incorrectamente
especificado. La experimentacin se dispara cuando el monitoreo del plan en ejecucin
detecta diferencias entre las expectativas internas y las observaciones.
Todos estos mdulos de aprendizaje estn en cierta medida integrados ya que todos dan las mismas
definiciones del dominio y comparten el mismo solucionador de problemas y estructuras de datos.
Luego de que cada mdulo obtiene sus conocimientos individualmente, estos son incorporados a la
base de conocimiento del sistema.
En EXPERIMENT, el refinamiento del conocimiento sobre el dominio puede ser representado como
el refinamiento de un conjunto de teoras sobre los operadores que modifican ese dominio. Cada
operador tiene la siguiente estructura:
- Nombre del operador

- Precondiciones que deben ser satisfechas por el estado del mundo

13
- Postcondiciones que aparecern/desaparecern del nuevo estado del mundo
Un plan est dado por una composicin de operadores. Si el plan falla, se busca la causa en la
definicin de las precondiciones o las postcondiciones de los operadores que forman el plan. Si se
interpreta al conjunto de los operadores como una teora de los efectos que determinadas operaciones
imprimen al estado del mundo, el fallo de un plan implica un fallo en la teora que debe ser refinada.
La tabla 1, presentada en [Garca Martinez, 1997], estudia tres casos de refinamiento:
Resultado Comportamiento Estrategia de Mtodo de Aprendizaje

Esperado Observado Recuperacin (Generador de Experimentos)
Todas las Al menos una Planificar para Bsqueda binaria en la secuencia de
precondiciones precondicin es obtener la operadores para establecer las
se satisfacen en violada en el precondicin precondiciones hasta el presente,
el estado estado presente. perdida. agregando precondiciones negadas como
inicial. postcondiciones del operador culpable.
Todas las Todas las Intentar planificar Comparar el fallo presente con la ltima
precondiciones precondiciones se sin ese operador. aplicacin con xito del operador, generar
se satisfacen en satisfacen, pero el Si falla esto: descripciones intermedias del mundo
el estado operador falla al suspender el plan mediante una bsqueda binaria para
inicial. ser aplicado. hasta que se identificar la parte necesaria del estado y
realice el agregarla a las precondiciones del
experimento. operador.
El operador se Al menos una Si la Comparar con la ltima vez que todas las
aplica y todas postcondicin postcondicin no postcondiciones fueron encontradas.
las falla en ser satisfecha es Desarrollar una bsqueda binaria en los
postcondiciones satisfecha. incidental, estados del mundo para determinar la
son satisfechas. ignorarla. Si es un parte necesaria para satisfacer todas las
estado objetivo, postcondiciones.
tratar con Luego, reemplazar con dos nuevos
diferentes operadores, uno con la nueva
operadores. precondicin y todas las postcondiciones
y el otro con la nueva precondicin
negada y sin la postcondicin puesta en
duda.
Tabla 1 Casos de Refinamiento de EXPERIMENT
En el contexto de PRODIGY, Wang [1994; 1995] ha desarrollado el sistema OBSERVER, que

aprende operadores a partir de las soluciones generados por expertos y luego los refina ejecutndolos
en un simulador. El sistema automticamente transforma los conocimientos generados por el
simulador, en operadores que pueden ser utilizados para el proceso de planificacin. Las
precondiciones y postcondiciones de cada operador tambin son generadas automticamente.

14
2.3 SISTEMAS CON CONOCIMIENTO INCORPORADO POR EL

SISTEMA
En esta seccin se presentan tres sistemas en donde el conocimiento del dominio es incorporado
directamente por el sistema. El primero de ellos es el Sistema Inteligente Autnomo (seccin 2.3.1),
el segundo es el sistema LIVE (seccin 2.3.2) y el ltimo, el sistema de Christiansen (seccin 2.3.3).
2.3.1 Sistema Inteligente Autnomo
De acuerdo a [Garca-Martinez, 1997], uno de los puntos involucrados en el problema de la

modelizacin de Sistemas Inteligentes [Fritz, 1984; 1992; Fritz et al; 1989] es lograr una base
axiomtica que describa formalmente los fenmenos que tienen lugar en este tipo de sistemas. Esta
descripcin formal apunta a proporcionar un instrumento para clasificar, medir y calcular en el
campo de la inteligencia. Formalmente, no es relevante la clasificacin en natural o artificial. El
propsito de los trabajos citados es abstraer los rasgos comunes, si los hay, de todos los procesos
inteligentes. Luego, clasificar como inteligentes a los sistemas capaces de dar lugar a procesos
inteligentes.
Un rasgo comnmente asociado con la inteligencia es la capacidad de adquirir nuevos
conocimientos. Esto se manifiesta en los procesos de aprendizaje, que aceptan ser descritos en
trminos de asimilacin e incorporacin de informacin extrada del contexto. Una forma de adquirir
conocimiento nuevo es el llamado "mtodo del ensayo-error". Esta tcnica permite descubrir leyes
simples cuya verdad se deduce a partir de la experiencia. En la teora presentada por los autores
mencionados, esta adquisicin de conocimiento est centrada alrededor de la asimilacin de
experiencias, siendo las leyes empricas las unidades de experiencia.
Un sistema inteligente autnomo (SIA) se define [Fritz et al., 1989] como tal, si cumple con las
siguientes condiciones: (i) transforma las percepciones de su entorno en situaciones (conjunto de
datos esenciales del estado del entorno), (ii) elige sus propios sub-objetivos guiado por su objetivo de
diseo, (iii) construye sus propios planes para alcanzar sus objetivos, basndose en su propia
experiencia (percepciones almacenadas en memoria), (iv) ejecuta el plan construido y (v) aprende a
partir de las interacciones con su entorno. Es decir, un SIA es aquel que percibe su entorno, que
planifica sus acciones, que ejecuta los planes y que aprende a partir de las experiencias previas.
La interaccin entre los distintos componentes del modelo se describe en la figura 2.3. El sistema
parte de las percepciones del entorno y luego de conceptualizarlas, define la situacin resultante. Esta
contiene los rasgos esenciales del estado del entorno, y en funcin de los objetivos del sistema,

15
tratar de acceder a la nueva situacin que ms le convenga. Una vez hecho esto, el sistema recurre
al conjunto de experiencias acumuladas para delinear el plan de accin. Cada unidad de experiencia
se compone como mnimo de la situacin inicial, la accin ejecutada, la situacin final y el hecho de
que las consecuencias de la accin haya sido beneficiosa o no para lograr el objetivo. Este beneficio,
o la falta del mismo, se traducen en utilidad resultante. La accin que se llevar a cabo depender de
que el sistema encuentre o no, en las experiencias previas, alguna relacin con la situacin actual. En
caso afirmativo y considerando que el resultado de esa accin pasada haya resultado beneficiosa, el
sistema tender a repetir la accin previa. En caso que el resultado de esa accin haya sido
perjudicial, el sistema buscar acciones alternativas.
Figura 2.3 - Esquema del Sistema Inteligente Autnomo

16
Frente a situaciones conocidas, los Sistemas Inteligentes tienden a desarrollar una actuacin que (por
experiencia) consideran ptima (no necesariamente es la ptima). Esta tendencia se denomina hbito.
Un mal hbito se da cuando el sistema persiste en un cierto actuar, aun cuando ste ya no
corresponde a la situacin. Por ltimo, cuando el sistema se encuentre ante una situacin nueva, este
podr actuar por azar, por intuicin o basndose en experiencias previas.
Una de las caractersticas ms importantes que se espera de un SIA es que aprenda lo mximo
posible de lo que est percibiendo y de la forma ms rpida. La importancia de este objetivo es ms
evidente cuando se trabaja con modelos en donde el agente no cuenta con ninguna informacin a
priori del entorno donde se encuentra. En estos casos, no slo la cantidad de interacciones ser un
factor preponderante en la eficiencia de su comportamiento, sino tambin la calidad de los procesos
de aprendizaje proporcionados por el diseador de software. En definitiva, en la medida que las
interacciones con su entorno sean altas y que el algoritmo de aprendizaje sea ms sofisticado, se ver
disminuido el tiempo en que el sistema alcance un comportamiento exitoso y eficiente, o en otras
palabras, la convergencia del modelo mejorar.
2.3.2 LIVE
Segn se sostiene en [Garca-Martinez, 1997], el trabajo de Shen (sistema LIVE) enfoca el problema
de aprendizaje a partir del entorno [Shen, 1989; Shen y Simon, 1989]. El objetivo es entender cmo
un sistema resuelve problemas en un medio desconocido a partir de acciones innatas y de las
percepciones. El aprendizaje es necesario porque en un nuevo entorno un aprendiz no puede saber "a
priori" las consecuencias de sus acciones ni las relaciones existentes entre las acciones y las
percepciones de forma completa.
El problema est motivado por dos hiptesis. La primera de ellas sostiene que el significado de los
smbolos en un sistema est arraigado en las acciones del sistema y en las percepciones, es decir, la
semntica es dependiente de la arquitectura. La segunda de las hiptesis de Shen consiste en que el
aprendizaje no slo es una de las actividades inteligentes bsicas sino que tiene una importancia
mayor que el razonamiento y la planificacin. Sostiene que el aprendizaje est estrictamente ligado a
las acciones y a las percepciones. Postula que si es cierto que la evolucin ha utilizado el 97% del
tiempo en acciones y percepciones [Moravec, 1988], la evolucin debe haber gastado por lo menos la
misma cantidad de tiempo en aprender. En este sentido, la segunda hiptesis de Shen apoya la idea
de que las acciones, las percepciones y el aprendizaje son bloques de construccin elementales de la
inteligencia.

17
El aprendizaje del entorno requiere la integracin de una variedad de actividades. Un sistema

aprendiz debe ser capaz de explorar, planificar, adaptar, experimentar, y descubrir. Afortunadamente,
estas actividades tienen un propsito comn: predecir las consecuencias de las acciones. Por esta
razn, deben ser estudiadas de una manera coherente en la cual cada una pueda beneficiar a las otras.
Por ejemplo, la cooperacin mutua entre prediccin, explicacin, resolucin de problemas,
experimentacin y aprendizaje (descubrimiento) puede ser de la siguiente manera: la prediccin es
utilizada para evaluar un criterio de explicacin; la explicacin provee un significado a la prediccin
considerada; la resolucin de problemas detecta cundo y dnde los experimentos son necesarios; y
el aprendizaje y el descubrimiento proveen ms bloques de construccin para la prediccin, la
explicacin y la resolucin de problemas. Shen define el aprendizaje a partir del entorno de la
siguiente manera:
Dado un conjunto de acciones y percepciones, el sistema aprendiz, mediante la aplicacin de

acciones y de la percepcin del entorno, construye autnomamente un modelo de ste que le
permite el cumplimiento de sus objetivos.
En esta definicin las acciones son cambios fsicos que ocurren dentro del aprendiz; por ejemplo, una
seal que activa el motor que rota el brazo de un robot. Las consecuencias de las acciones pueden no
ser conocidas y estas consecuencias pueden variar de un entorno a otro. Esta definicin separa las
consecuencias de las acciones que las provocan y es un ingrediente clave para construir sistemas de
aprendizaje que sean adaptables a distintos entornos.
Las percepciones son representaciones internas de informacin que son perceptibles por el aprendiz
desde el entorno, son la salida de los dispositivos de percepcin del aprendiz. Dependiendo de estos
dispositivos innatos las percepciones del aprendiz pueden ser al mismo tiempo muy precisas o muy
vagas. Demasiada precisin puede exigir mucha potencia de procesamiento; demasiada vaguedad
puede llevar a que no se capturen caractersticas importantes del mundo.
Para construir el modelo del entorno, el aprendiz es libre de usar todas sus acciones y percepciones.
Slo existe un nico criterio para evaluar la calidad del modelo construido por el aprendiz: debe ser
suficiente para que el aprendiz alcance los objetivos de una manera deliberada. Es decir, debe
predecir correctamente las consecuencias de cada una de las acciones que son empleadas en la
solucin.
Obsrvese que no se exige al sistema que construya un modelo exacto del entorno. Esta es una
diferencia central entre la definicin de Shen y la de la mayor parte del trabajo terico existente en
aprendizaje a partir del entorno [Rivest y Schapire, 1987].

18
2.3.3 Sistema de Christiansen
Segn lo descrito en la tesis doctoral del Dr. Garca-Martinez [1997], el trabajo de Christiansen
[1992] enfoca el aprendizaje automtico de los efectos de las acciones de un sistema autnomo en un
ambiente fsico. Los sensores y efectores del sistema le proveen un conjunto de valores que
describen los efectos de las acciones. Las imperfecciones en el sistema sensor-efector y las
caractersticas de las acciones fsicas se combinan para generar resultados observados con ruidos y
no deterministas. Por tal motivo, el aprendizaje exitoso de los efectos de las acciones requiere
algoritmos de aprendizaje tolerantes al ruido. Para lograr alcanzar los objetivos con xito se requiere
que el sistema sea capaz de razonar a partir de su incertidumbre y predecir el efecto de las acciones.
En este modelo, las acciones son representadas por operadores continuos llamados "funnels". Ellos
son computados por un algoritmo de aprendizaje emprico que tolera el ruido y que asegura no
realizar predicciones equivocadas.
El sistema interacta con su entorno a travs de sus sensores y sus efectores. Con el fin de lograr sus
objetivos, el sistema utiliza los sensores para obtener informacin del entorno y los efectores para
ajustar el entorno de un modo tal que permita la concrecin de los objetivos. En este contexto, el
sistema debe ser capaz de predecir los efectos de las acciones que genera el subsistema efector.
El trabajo de Christiansen se concentra en dos aspectos del aprendizaje desde el entorno, los cuales
han recibido poca atencin en la bibliografa: el tratamiento de las caractersticas del espacio
continuo y el tratamiento del ruido y de la incertidumbre.
Desde el punto de vista del aprendizaje del sistema, el entorno es una caja negra. El sistema provee
acciones como entradas al entorno y recibe estados percibidos a travs de los sensores. Las salidas
del entorno son llamadas estados, pero en general estos estados solo reflejan parcialmente los estados
verdaderos del entorno. En el trabajo de Christiansen, se asume que ambos, estados y acciones, son
conjunciones de valores ordenados, correspondientes a medidas continuas de las caractersticas del
entorno. Estos estados y acciones son descritos por puntos en un espacio multidimensional de
caractersticas. Los espacios relevantes son llamados espacio de estados S y espacio de acciones A.
Es conveniente describir la situacin actual como un punto en el espacio < estado, accin >. Este
punto indica el estado actual y la accin a ser ejecutada.
El problema atacado por Christiansen es el de predecir el resultado de la ejecucin de una accin
desde el estado percibido. Asumiendo que el sistema usa los sensores antes y despus de la ejecucin
de varias acciones, la informacin sobre los efectos de las acciones vuelve al sistema como una
cadena de puntos [s0, a0, s1, a1, s2, ... ]. Otra forma de ver esto es como una secuencia de estados de
transicin [s, a, r] (estado, accin, estado resultante).

19
Un aspecto interesante de este tipo de aprendizaje es que el sistema solo recibe ejemplos de su tema
de inters. Es decir, el sistema solo ve lo que puede ocurrir a partir del resultado de sus acciones;
nunca ve lo que no puede conseguir. Una aproximacin para la inferencia inductiva de los problemas
de esta clase es asumir familias de restricciones o formas funcionales para las respuestas, y aplicar
tcnicas de regresin para cambiar la mejor respuesta de acuerdo a algunas medidas de error. Estas
tcnicas de regresin permiten tratar con ruido y valores de caractersticas continuas.
Para que estas tcnicas sean exitosas se requiere que la familia de respuestas aceptables sea limitada
"a priori". Esta limitacin constituye una forma de sesgo inductivo. Para los sistemas que poseen una
gran cantidad de conocimiento inicial, tal como los sistemas de aprendizaje basado en explicaciones,
el xito del sistema de aprendizaje es altamente dependiente del conocimiento inicial elegido por el
programador humano.
Se asume que el sistema inicialmente tiene poco conocimiento sobre el entorno y que no posee
inicialmente ninguna habilidad para predecir el efecto de las acciones. El sistema tambin asume que
las caractersticas observadas (estado percibido) corresponden a medidas continuas de las
caractersticas del entorno, y que las caractersticas controladas (correspondientes a los parmetros
controlados de las acciones) representan cambios continuos con causa en los efectos de las acciones
fsicas. En adicin, asume tambin que los cambios de estado del entorno solo son por la influencia
de sus acciones. Por otra parte, asume que el entorno no es dinmico: como resultado de cada accin,
el entorno establece un estado invariante durante el tiempo en que el sistema usa los sensores para
medir los resultados de sus acciones. El supuesto de la invarianza del tiempo permite al sistema
generalizar sobre los estados de transicin observados, independientemente de la historia especfica
de cada uno de ellos.
2.4 EL MODELO LOPE
El modelo LOPE (Learning by Observation in Planning Environments) [Garca-Martinez y Borrajo,

1997; 2000] es un sistema inteligente autnomo [Fritz et al., 1989] con aprendizaje basado en
formacin y ponderacin de teoras. Se incluye dentro de la categora de los sistemas en los cuales el
conocimiento sobre el dominio es incorporado por el sistema. La arquitectura del modelo integra el
proceso de planificacin, ejecucin y aprendizaje en un ciclo cerrado (figura 2.4).
Puede ser descrito como un robot de exploracin que percibe el entorno a travs del sistema sensor
(figura 2.5) y registra teoras locales a partir de la situacin previa, la accin ejecutada y la situacin
resultante. Dichas teoras son utilizadas para la construccin de planes que le permitirn alcanzar sus
propios objetivos. A partir del conjunto de todas las teoras locales almacenadas, el sistema elabora

20
una representacin del entorno que lo rodea y, basndose en l, ejecuta el siguiente ciclo de
planificacin/ejecucin/aprendizaje. En estos casos, como el robot slo est percibiendo su entorno
inmediato, la representacin del medioambiente no deja de ser parcial. Aun as, es posible llevar
adelante una extrapolacin y utilizar el conjunto de teoras existentes como base para el prximo
proceso de planificacin y ejecucin [Hayes-Roth, 1983].
Figura 2.4 Arquitectura del modelo LOPE
Figura 2.5 El Robot Explorador y su sistema Sensor
Con el fin de acelerar la convergencia del modelo se incluyen criterios heursticos para hacer una
generalizacin de las observaciones (percepciones) obtenidas. Tambin se utilizan estimadores de
probabilidad que permiten gestionar las contradicciones que se generan en las descripciones de los
operadores.
El objetivo de la arquitectura LOPE es [Berlanga et al., 1999] el estudio y construccin de sistemas
capaces de, partiendo de conocimiento nulo: auto-proponerse metas; establecer planes para alcanzar
dichas metas; ejecutar los planes; y aprender cmo afectan las acciones del robot al entorno
(operadores) a partir de las desviaciones producidas al ejecutar las acciones de los planes.

21
En trabajos previos del autor [Garca-Martinez, 1997] la representacin de las teoras (operadores) se
fundament en el modelo propuesto en [Fritz et al., 1989], en donde una observacin (o unidad de
experiencia) tena la siguiente estructura:
[Situacin Inicial, Accin, Situacin Final]
Con este tipo de estructura las percepciones son utilizadas directamente en el armado de la teora
local, sin ningn tipo de ajuste, es decir, la percepcin y la teora son una misma cosa, no hay ningn
proceso de anlisis en el medio. En el modelo LOPE, el concepto de percepcin se mantiene
idntico pero la estructura de las teoras locales es extendida, ya que se le agregan ciertas
caractersticas que permitan evaluar la confiablidad de los planes antes de ser ejecutados. En este
caso, la estructura resultante tiene la siguiente forma:
[Situacin Inicial, Accin, Situacin Final, P, K, Utilidad]
donde K representa la cantidad de veces que una teora fue utilizada y P el nmero de instancias en
que esa teora fue utilizada con xito. Por otro lado, la utilidad es el criterio utilizado para armar los
planes. El objetivo del agente, o ms precisamente de su proceso de planificacin, es el de alcanzar la
situacin de mayor utilidad. Es importante tener en cuenta que la utilidad no es una variable de
entrada para el agente sino que est determinado implcitamente por el sistema en su conjunto. Es
decir, cada coordenada espacial del entorno ya tiene asociada una utilidad definida a priori por el
diseador del sistema.
La figura 2.6 describe los procesos de observacin, planificacin, ejecucin y aprendizaje del
modelo. Al comienzo el sistema no posee ningn conocimiento, por lo que simplemente percibe la
situacin inicial, elige una accin aleatoria y la ejecuta. A partir de esta primera accin, el agente
percibe una nueva situacin y arma una teora local con la situacin previa y la accin ejecutada.
A partir de la comparacin de la nueva teora local armada y las teoras ya registradas en el sistema,
se procede de alguna de las siguientes maneras:
- Si la teora local es igual a alguna teora registrada, sta se refuerza. Para ello se incrementa el
P y el K de la teora registrada y se incrementa el K de las teoras similares.
- Si la teora local es similar a alguna teora registrada, se registra la nueva teora local; se
registra una nueva teora mutante; se incrementa el P de la nueva teora local y la mutante; se
estandarizan los K de la teora nueva y las teoras similares; y se asigna el nivel de utilidad a
las nuevas teoras.

22
- Si no existe una teora igual ni similar a la teora local, se registra la nueva teora local, se
incrementa el P y el K de la nueva teora y se le asigna el nivel de utilidad que le corresponde.
Figura 2.6 Ciclo de Observacin-Planificacin-Ejecucin-Aprendizaje del modelo LOPE
Si existe un plan en ejecucin, se verifica que la situacin obtenida sea la esperada. Si esto ocurre, el
control se pasa al mdulo ejecutor, que selecciona la accin y la ejecuta. En caso que la situacin
obtenida no haya sido la esperada, se aborta el plan y el control es devuelto al planificador.
Si no existe un plan en ejecucin, ya sea porque la ltima accin del plan fue ejecutada o porque la
accin ejecutada no era parte de un plan (accin inicial o plan de contingencia), entonces el control
se pasa al planificador y ste genera uno.

23
El planificador lleva adelante los siguientes pasos para la creacin del plan: arma la pila de
situaciones deseables, elige la situacin con mayor nivel de utilidad, procede al armado del rbol de
situaciones asociado y verifica que exista un camino de mnimo recorrido entre la situacin actual y
la deseada. En caso que exista ese camino se arma el plan, se construye su matriz de valoracin y a
partir de ella, se evala la calidad del plan. Si el plan resulta confiable (la probabilidad de xito es
superior al umbral de confiabilidad) se traslada el control al mdulo ejecutor, quien selecciona la
siguiente accin y la ejecuta. Si el plan no resulta confiable y quedan situaciones deseables en la pila
se toma la siguiente situacin deseable de ella y se repiten los mismos pasos. Si el plan no resulta
confiable pero no quedan ms situaciones deseables en la pila, se pasa el control al mdulo ejecutor y
ste ejecuta el plan de contingencia. Por ltimo, si no existe un camino de mnimo recorrido entre la
situacin actual y la deseada y an quedan situaciones deseables en la pila, se toma la siguiente
situacin deseable y se ejecutan los pasos ya descritos; si no quedan situaciones deseables se ejecuta
el plan de contingencia.
2.5 EXTENSIONES O MODIFICACIONES AL MODELO LOPE
En esta seccin se describen las cuatro modificaciones al modelo LOPE que se han elaborado en los
ltimos aos: (i) SIA con aprendizaje basado en intercambio de teoras (seccin 2.5.1), (ii) SIA con
ciclo de vida de aprendizaje (seccin 2.5.2), (iii) actualizacin del mtodo de ponderacin del
modelo, basado en la productoria de probabilidad de xito de acciones (seccin 2.5.3) y (iv) la
implementacin de algoritmos genticos al SIA (seccin 2.5.4).
2.5.1 Sistema Inteligente Autnomo con Aprendizaje basado en Intercambio de

Operadores
De acuerdo a la resea formulada en la tesis doctoral del Dr. Ierache [2010], esta arquitectura de
sistema inteligente autnomo tambin percibe el entorno a travs del sistema sensor, pero antes de
realizar cualquier accin, se pregunta si es necesario intercambiar operadores con otro sistema
inteligente autnomo [Garca-Martnez et al., 2006]. Este proceso se lleva a cabo mediante un
mdulo de intercambio de operadores. Luego, se registra la situacin percibida del entorno, y arma
una teora local con la situacin previa y la accin ejecutada. En la figura 2.7 se presenta la
arquitectura del sistema, donde se observa su interaccin con el entorno y el funcionamiento general
de los mdulos de aprendizaje, planificacin, ponderacin, control e intercambio de operadores.
Si la teora local es igual a alguna teora registrada, sta se refuerza, si no existe una teora igual pero
existen similares, stas se ponderan y se generan teoras mutantes las cuales son registradas y

24
ponderadas de la misma forma. Por ltimo (luego del proceso de generar teora mutantes o si no
existen teoras similares) se incorpora la teora local y se pasa el control al subsistema controlador.
Figura 2.7 Esquema del SIA con aprendizaje basado en formacin y ponderacin de teoras
Si existe un plan en ejecucin, se verifica que la situacin obtenida sea la esperada; si no ocurre esto,
se aborta el plan y el control es devuelto al planificador. Si no existe un plan en ejecucin, el
planificador genera uno, lo enva al ponderador y mediante un criterio heurstico, se determina si el

25
plan es aceptable. En caso afirmativo, el controlador de planes en ejecucin determina la siguiente

accin a ser ejecutada, la cual es pasada a la plataforma para que sta la aplique en el entorno.
2.5.2 Sistema Inteligente Autnomo con Ciclo de Vida de Aprendizaje
En [Ierache et al., 2008] se presenta una extensin al modelo LOPE en la que se incluye un ciclo de
vida de aprendizaje de tres capas:
1. Operadores Integrados (BIO): capa de aprendizaje donde los operadores (teoras) son
implantados en el sistema por el programador.
2. Operadores basados en entrenamiento (TBO): capa de aprendizaje donde las teoras son
diseadas previamente por el programador y luego se le aplican tcnicas de aprendizaje
evolutivo.
3. Operadores de interaccin global (WIO): capa de aprendizaje donde los operadores son
aprendidos por la interaccin con el medioambiente y con otros SIAs.
El ciclo de vida de aprendizaje propuesto para el modelo LOPE-LLC (LOPE Learning Life Cycle) se
observa en la figura 2.8. El SIA nace con los operadores implantados por el programador, los
cuales representan el conocimiento bsico y que permite el comportamiento reactivo inicial del
sistema. La evolucin de este conocimiento se lleva a cabo a travs de los operadores aprendidos por
entrenamiento. Dicho aprendizaje incluye las tcnicas de refuerzo: se castigan los malos operadores
y se recompensan los buenos. Tambin se incluyen criterios heursticos para crear algoritmos
generalizados e incluirlos al conjunto de operadores existentes. Dado que la gran cantidad de
operadores almacenados podran disminuir el rendimiento de los mdulos de planificacin y
aprendizaje, el sistema automticamente deja de lado los operadores con cocientes P/K bajos.
Al igual que el modelo LOPE original, el sistema LOPE-LLC busca aprender, por s mismo, aquellos
operadores que permitan predecir los efectos de sus acciones en el medioambiente. Esto lo consigue
observando las consecuencias de sus acciones. Resumiendo, este sistema es capaz de: (i) proponerse
sus propios objetivos, (ii) ejecutar los planes, (iii) encontrar la conducta correcta e incorrecta, (iv)
aprender a partir de los BIO, (v) refinar el conocimiento del sistema a partir de la creacin de los
TBO usando mtodos de refuerzo y (vi) evolucionar a partir del intercambio de los WIO.
En la etapa de aprendizaje de los TBO, el sistema recibe las percepciones del entorno (situaciones),
aplica las acciones y aprende a partir de la interaccin con el ambiente de entrenamiento diseado.
En este caso, la situacin inicial percibida por el sistema es representada a partir de sus BIO, pero
luego selecciona una accin al azar, elegida a partir del conjunto de sus TBO. Tanto los BIO como

26
los TBO, tambin son utilizados ms adelante durante la etapa de aprendizaje de los WIO. Sobre la
base de las tres capas del modelo LLC propuesto, el sistema evoluciona alcanzando cada uno de los
cuatro estados de madurez: (1) nacido (born), (2) novato (newbie), (3) entrenado (trained) y
(4) maduro (mature).
Figura 2.8 Ciclo de Vida de Aprendizaje del Sistema Inteligente Autnomo
Cada una de las capas incluye las siguientes etapas: (a) situacin inicial del mundo (entorno y otros
SIAs), (b) acciones basadas en los operadores del sistema, de acuerdo a los planes, (c) situacin final
prevista, (d) estimacin de los operadores del sistema (P, K, U), (e) intercambio de operadores con
otros SIAs, (f) proceso de aprendizaje, (g) evolucin del sistema hacia el prximo estado.
Cuando el SIA nace (estado inicial), el programador le provee de operadores que le permitan
iniciar su funcionamiento. El proceso dentro de la primera capa evoluciona a medida que se van
compartiendo los BIO con otros SIAs y que se llevan adelante tareas de aprendizaje. Llega un punto
en que el sistema alcanza el nivel novato. En esta nueva capa aprende a partir del entrenamiento y
comparte los BIO y los TBO, lo que le permite alcanzar el nivel entrenado. Finalmente, se inicia el
camino de la ltima capa, en donde el sistema es capaz de compartir sus BIO, TBO y WIO, hasta que
alcanza el estado maduro.
2.5.3 Mtodo de Ponderacin basado en la productoria de probabilidad de xito

de acciones
En [Lpez et al., 2008] se propone un nuevo algoritmo de ponderacin de planes con el objetivo de
mejorar el rendimiento del sistema (porcentaje de planes exitosos). Para estimar la probabilidad de

27
xito de los planes, el mtodo clsico de ponderacin se basa en la teora de autmatas estocsticos,
ya que el conocimiento que posee el sistema en un momento dado (el conjunto de teoras), puede ser
visto como un modelo de cmo reaccionar el entorno frente a las acciones que ejecuta el sistema. O
sea, si se consideran todos los estados en que puede encontrarse el autmata cuando recibe una
entrada, puede definirse una matriz de transicin que contenga la probabilidad de xito del plan.
La primera modificacin que lleva adelante Lpez es dar una nueva representacin para la definicin
de un plan. Mientras que en el modelo LOPE original, un plan tiene la siguiente estructura:
Pij = A1 o A2 o . . . o Ar
donde A1, A2 y Ar identifican a cada una de las acciones necesarias para alcanzar la situacin
esperada; con la nueva propuesta, un plan se representa del siguiente modo:
P*ij = (Si1, A1 ,Sf1 ,P1 ,K1 ) o (Si2 , A2 ,Sf2 ,P2 ,K2 ) o . . . o (Sir , Ar ,Sfr ,Pr ,Kr )
La diferencia entre ambas definiciones radica en que, si bien ambas representan un mismo plan, la
segunda contiene mayor informacin, ya que expresa el plan como una composicin de las r teoras
en que se bas su construccin, haciendo explcitas las respectivas situaciones iniciales y finales
esperadas a cada paso de la ejecucin del plan.
En segundo lugar, mientras que el modelo clsico se basa en la matriz de transicin para calcular la
probabilidad de xito de un determinado plan, en el mtodo propuesto, la probabilidad estimada de
que el plan P*ij aplicado a la situacin Si resulte en la situacin Sj, se obtiene calculando el siguiente
producto de nmeros escalares:
Pexito = P1/K1 . P2/K2 . Pr/Kr
Es decir, en este ltimo caso, la probabilidad de xito del plan es igual a la productoria de las
probabilidades de xito de cada uno de las acciones por separado.
2.5.4 Algoritmos genticos aplicados a los sistemas inteligentes autnomos
Un Algoritmo Gentico (AG) es una tcnica de bsqueda basada en la teora de la evolucin de

Darwin, en el cual los individuos ms aptos de una determinada poblacin son los que sobreviven, ya
que pueden adaptarse ms fcilmente a los cambios que se producen en su entorno. Algunas de sus
caractersticas son: (i) requieren muy poca informacin especfica del problema, (ii) resuelven en
forma rpida y eficiente problemas con espacio de bsqueda muy grandes, (iii) alta dimensionalidad
de la funcin de aptitud y (iv) funciones de aptitud no lineales [Garca-Martnez et al., 2003].

28
Para operar, un AG simula la evolucin de una poblacin de individuos. Para ello, se genera una
poblacin inicial de individuos y luego se ejecuta un proceso iterativo de seleccin, cruzamiento y
mutacin. En la seleccin, se imita al mecanismo de seleccin natural, eligiendo los individuos ms
aptos de la poblacin para que su informacin gentica permanezca las siguientes generaciones. El
cruzamiento simula la reproduccin sexual de los individuos, permitiendo que los individuos con
ms aptitud generen nuevos individuos (hijos) combinando sus genes. Esta mezcla de cdigo
gentico, provee un mtodo de bsqueda altamente eficiente en el espacio de estructuras [Garca
Martnez et al., 2003]. La mutacin contribuye a la diversidad gentica de la poblacin, alterando de
manera aleatoria el valor de uno o ms genes de cualquier individuo existente.
Figura 2.9 Arquitectura del SIA con la implementacin del Algoritmo Gentico

29
La figura 2.9 describe la arquitectura del sistema propuesta en [Steinhilber et al., 2009]. En este
trabajo el AG es implementado del siguiente modo. Una vez que este percibe una nueva situacin, se
procede al armado de la teora local. Si existe al menos una teora similar y no hay teoras iguales a la
nueva teora local, se ponderan las teoras similares, se generan las teoras mutantes, se registran y
ponderan las teoras mutantes y se incorpora la teora local. Luego, si se sucedi una cantidad
mnima de ciclos sin aplicar AG y se iguala o supera una cantidad especfica de teoras, se aplica el
AG al conjunto de teoras del SIA.
El AG acelera los tiempos de aprendizaje del SIA, ya que al combinarlo con otras estrategias,
provoca un aumento en la cantidad de teoras que el sistema adquiere. Tambin se observa un gran
aumento de teoras cuando se combina mutacin, intercambio, ponderacin y AG, en comparacin
con los resultados obtenidos sin AG.

30
FUTURAS LNEAS DE INVESTIGACIN APRENDIZAJE Y PLANIFICACIN EN SISTEMAS INTELIGENTES AUTNOMOS
3. CONCLUSIONES
En este captulo se presenta un resumen de los resultados del trabajo de investigacin (seccin 3.1) y
las futuras lneas de investigacin surgidas a partir de l (seccin 3.2).
3.1 RESUMEN DE LOS RESULTADOS DEL TRABAJO
El presente trabajo constituye una revisin de los mtodos de aprendizaje y planificacin utilizados
en aquellos sistemas que se basan en la creacin de operadores o teoras (operadores ponderados)
para representar el entorno que los rodea y planificar sus acciones. El trabajo se centra en los
llamados Sistemas Inteligentes Autnomos, concepto presentado por primera vez en [Fritz et al.,
1989] y definido como aquel sistema que:
i. transforma las percepciones de su entorno en situaciones (conjunto de datos esenciales del

estado del entorno),
ii. elige sus propios sub-objetivos guiado por su objetivo de diseo,
iii. construye sus propios planes para alcanzar sus objetivos, basndose en su propia experiencia
(percepciones almacenadas en memoria),
iv. ejecuta el plan construido,
v. aprende a partir de las interacciones con su entorno.
Dentro de los sistemas que aprenden a partir de la interaccin con el entorno, es posible hablar de dos
categoras: (a) aquellos en donde el conocimiento sobre el dominio es incorporado por el
programador y ajustado por el sistema y (b) aquellos en donde el conocimiento sobre el dominio es
incorporado puramente por el sistema [Garca-Martinez, 1997]. Este trabajo se focaliza en el ltimo
grupo, aunque se describen algunos sistemas importantes de ambos tipos para contextualizar los
conceptos.
En lnea con el trabajo de Fritz [1989], aos ms tarde se presenta el modelo LOPE [Garca-Martnez
y Borrajo; 1997; 2000], un sistema inteligente autnomo con aprendizaje basado en formacin y
ponderacin de teoras. Dicho modelo pertenece a la categora (b) recientemente descrita y puede ser
descrito como un robot de exploracin que percibe el entorno a travs del sistema sensor y registra
teoras locales a partir de la situacin previa, la accin ejecutada y la situacin resultante. La
caracterstica nueva de este modelo es que las teoras son ponderadas de acuerdo al nmero de veces
que stas fueron utilizadas con xito en el proceso de planificacin. Dicha ponderacin sirve, luego,

31
para evaluar la calidad del plan antes de ser ejecutado y de esta forma evitar ejecutar planes con baja
probabilidad de xito.
A partir de la publicacin de la arquitectura LOPE, en la ltima dcada se han elaborado varias
modificaciones al modelo que han logrado mejorar el rendimiento de su aprendizaje y de su
planificacin:
1) En [Garca-Martnez et al., 2006] se incorpor una arquitectura multiagente que permite el

intercambio de teoras;
2) En [Ierache et al., 2008] se utiliz un sistema multiagente pero en este caso se implement un
ciclo de vida de aprendizaje y se definieron distintos perfiles de agentes, cada uno de los
cuales con un determinado mtodo de adquisicin y transmisin de conocimiento;
3) En [Lpez et al., 2008] se propuso un mecanismo de ponderacin de planes distinto, basado

en la productoria de probabilidad de xito de acciones
4) En [Steinhilber et al., 2009] se tom como marco de trabajo el algoritmo de ponderacin

elaborado por Lpez pero se propuso la aplicacin de algoritmos genticos para mejorar el
rendimiento.
3.2 FUTURAS LNEAS DE INVESTIGACIN
A pesar de que cada una de las modificaciones y extensiones aplicadas al sistema LOPE mejor el
rendimiento del mismo, hay ciertos aspectos del modelo que an no han sido abordados y, por lo
tanto, podran ser el objetivo de futuras lneas de investigacin. A continuacin se describen las dos
oportunidades de mejora identificadas a lo largo de la presente investigacin.
3.2.1 Evaluacin de los Planes Ejecutados
En primer lugar, es importante destacar que tanto en el modelo LOPE original como en las variantes
mencionadas, el proceso de aprendizaje slo se produce dentro de la fase de observacin. En esta
etapa, de acuerdo al resultado de lo percibido por el sistema sensor, el sistema refuerza teoras o
pondera y crea teoras mutantes. Ahora bien, en el caso que exista un plan en ejecucin y que uno de
sus pasos no haya logrado la situacin esperada, el sistema slo se limita a abortar el plan y a
devolver el control al planificador; perdiendo la oportunidad de incrementar su aprendizaje a partir
del resultado de los planes. Por lo tanto, dado que un plan consiste en una concatenacin de teoras,

32
generar un mecanismo que refuerce o castigue las teoras involucradas en ellos, de acuerdo a su xito
o fracaso, mejorara sin dudas el proceso de aprendizaje del modelo.
3.2.2 ndice de Confiabilidad Dinmico
En segundo lugar, se observa una oportunidad de mejora en el proceso de evaluacin de calidad de

los planes a ejecutar, ya que el parmetro que mide la confiabilidad de los planes es un valor esttico
a lo largo de todo el ciclo de vida del sistema. Es decir, a la hora de decidir si un plan ser llevado a
cabo o no, el sistema evala si su probabilidad de xito es mayor o igual al umbral de confiabilidad.
En caso afirmativo, el sistema inicia la ejecucin del plan, de lo contrario, intenta armar un nuevo
plan. Sin embargo, cabe preguntarse, qu sucedera si como diseadores del sistema observramos
que una gran cantidad de planes han fracasado? En ese caso, no sera conveniente que el umbral de
confiabilidad se incremente para evitar que se ejecuten planes condenados al fracaso? Ante esta
pregunta el autor sugiere la elaboracin de un mecanismo que permita configurar un ndice de
confiabilidad dinmico.

33

34
REFERENCIAS APRENDIZAJE Y PLANIFICACIN EN SISTEMAS INTELIGENTES AUTNOMOS
4. REFERENCIAS
Berlanga, A., Borrajo, D., Fernndez, F., Garca-Martnez R., Molina, J. & Sanchis, A. (1999).
Robtica Cognoscitiva y Aprendizaje Automtico. Conferencia de la Asociacin
Espaola para la Inteligencia Artificial. VIII. 1-8. Murcia. Espaa.
Bock, P. (1985). The Emergence of Artificial Intelligence: Learning to learn. A.I. Magazine Fall,
pp 180-190. EEUU.
Carbonell, J., Gil, Y. (1990). Learning by experimentation: The operator refinement method. En
Michalski, R. S. and Kodratoff, Y., editors, Machine Learning: An Artificial Intelligence
Approach, Volume III, pp 191213. Morgan Kaufmann, Palo Alto, CA.
Carbonell, J., Knoblock, C. A. y Minton S. (1990). PRODIGY: An Integrated Architecture for
Planning and Learning. En Architectures for Intelligence editado por Kurt VanLehn.
Erlbaum.
Carbonell, J., Michalski, R. y Mitchell T. (1983). An Overview of Machine Learning. En Machine
Learning: The Artificial Intelligence Approach Volumen I editado por Michalski, R.,
Carbonell, J., y Mitchell T. Morgan Kaufmann.
Christiansen, A. (1992). Automatic Acquisition of Task Theories for Robotic Manipulation. Tesis
Doctoral, School of Computer Science, Universidad Carnegie Mellon.
Etzioni, O. (1990). A Structural Theory of Explanation-Based Learning. Tesis Doctoral, School of
Computer Science, Carnegie Mellon University.
Fritz, W. (1984). The Intelligent System. SIGART Newsletter, 90: 34-38. ISSN 0163-5719.
Fritz, W. (1992). World view and learning systems. Robotics and Autonomous Systems 10(1): 1-7.
ISSN 0921-8890.
Fritz, W., Garca Martnez, R., Rama, A., Blanqu, J., Adobatti, R. y Sarno, M. (1989). The
Autonomous Intelligent System. Robotics and Autonomous Systems, 5(2):109-125.
ISSN 0921-8890.
Garca-Martnez, R. (1997). Un Modelo de Aprendizaje por Observacin en Planificacin. Tesis
Doctoral, Facultad de Informtica, Universidad Politcnica de Madrid.
Garca-Martnez, R. y Borrajo, D. (1997). Planning, Learning and Executing in Autonomous
Systems. Lecture Notes in Artificial Intelligence 1348: 208-210. ISBN 978-3-540-
63912-1.
Garca-Martnez, R. y Borrajo, D. (2000). An Integrated Approach of Learning, Planning and
Executing. Journal of Intelligent and Robotic Systems 29(1): 47-78. ISSN 0921-0296.

35
Garca-Martnez, R., Borrajo, D., Britos, P. y Maceri, P. (2006). Learning by Knowledge Sharing in
Autonomous Intelligent Systems. Lecture Notes in Artificial Intelligence, 4140: 128-137.
ISBN 978-3-540-45462-5.
Garca-Martnez, R., Servente, M. y Pasquini, D. (2003). Sistemas Inteligentes (pp. 149-280).
Buenos Aires: Editorial Nueva Librera. ISBN 987-1104-05-7.
Hayes-Roth, F. (1983). Using Proofs and Refutations to Learn from Experience. En Machine
Learning: The Artificial Intelligence Approach Volumen I editado por Carbonell J.,
Michalski R. y Mitchell T. Morgan Kaufmann.
Ierache, J. (2010). Modelo de ciclo de vida para el aprendizaje basado en comparticin de
conocimientos en sistemas autnomos de robots. Tesis Doctoral en Ciencias
Informticas, Facultad de Informtica, Universidad Nacional de La Plata.
Ierache, J., Garca-Martnez, R. y De Giusti, A. (2008), Learning Life-Cycle in Autonomous
Intelligent Systems. Artificial Intelligence in Theory and Practice II, ed. M. Bramer,
(Boston: Springer), pp 451- 455, ISSN 1571-5736.
Joseph, R. (1989). Graphical Knowledge Acquisition. Proceedings 4th Knowledge Acquisition for
Knowledge-Based Systems Workshop. Banff. Canada.
Knoblock, C. A. (1994). Automatically generating abstractions for planning. Artificial
Intelligence, 68.
Kodratoff, Y. (1988). Introduction to Machine Learning. Morgan Kaufmann.
Lpez, D., Merlino, H., Ierache, J. y Garca Martnez, R. (2008). A Method for Pondering Plans in
Autonomous Intelligent Systems. Anales V Workshop de Inteligencia Artificial Aplicada
a la Robtica Movil, pp 98-104. ISBN 978-987-604-100-3.
Michalski, R. (1986). Understanding the Nature of Learning: Issues and Research Directions. En
Machine Learning: The Artificial Intelligence Approach Volumen II editado por
Michalski, R., Carbonell, J., y Mitchell T. Morgan Kaufmann.
Michalski, R y Kodratoff, Y. (1990). Research in Machine Learning: Recent Progress,
Classification of Methods and Future Directions. En Machine Learning: The Artificial
Intelligence Approach Volumen III editado por Kodratoff, Y. y Michalski, R. Morgan
Kaufmann.
Minsky, M. (1954). Theory of Neural-Analog Reinforcement Systems and Its Application to the
Brain-Model Problem. Tesis Doctoral, Universidad de Princeton.
Minsky, M. (1963). Steps Toward Artificial Intelligence. En Computers and Thought. Editado por
Feigenbaum, E. y Feldman, J. McGraw-Hill.

36
Minsky, N. y Selfridge, O. (1961). Learning In Random Nets. Information Theory: Fourth London
Symposium. Butterworths.
Minton, S. (1989). Learning Effective Search Control Knowledge: An Explanation-Based
Approach. Tesis Doctoral, Computer Science Department, Carnegie Mellon University.
Minton, S. (1990). Quantitative Results Concerning the Utility of Explanation-Based Learning.
Artificial Intelligence. Volumen 42, pp 363-392.
Mondada, F., Franzi, E. y Guignard A. (1999). The Development of Khepera. First International
Khepera Workshop, Paderborn, HNI-Verlagsschriftenreihe, Heinz Nixdorf Institut 64.
Moravec, H. (1988). Mind Children, The future of robot and human intelligence. Harvard
University Press.
Rivest, R. y Schapire, R. (1987). Diversity-based Inference of Finite Automata. Proceedings of
Foundation of Computer Science. IEEE Press.
Russell, S., Norvig, P. (2004). Inteligencia Artificial. Un enfoque moderno, pp 37-144. Madrid:
Pearson Educacin. ISBN 84-205-4003-X.
Salzberg, S. (1985). Heuristics for Inductive Learning. Proceedings of Ninth International Joint
Conference on Artificial Intelligence, pp 603-609. EE.UU.
Shen, W. (1989). Learning from the Environment Based on Actions and Percepts. Tesis Doctoral,
Universidad Carnegie Mellon.
Shen, W y Simon, H. (1989). Rule Creation and Rule Learning Through Environmental
Exploration. Proceedings of Eleventh International Joint Conference on Artificial
Intelligence, pp 675-680. Morgan Kauffman.
Steinhilber, R., Garca-Martnez, R. y Kuna, D. (2009). Mutacin de Teoras en Sistemas
Inteligentes Autnomos Basada en Algoritmos Genticos. Proceedings VII Campeonato
de Ftbol de Robots y Workshop de Sistemas Autnomos de Robots, pp 24-33. ISBN
978-950-9474-45-1.
Sutton, R. y Barto, A. (1998). Reinforcement Learning: An Introduction. Cambridge, MA: MIT
Press.
Veloso, M. y Carbonell, J. (1990). Integrating analogy into a general problem-solving
architecture. En Intelligent Systems. Ellis Horwood Limited, West Sussex, England.
Veloso, M. y Carbonell, J. (1991). Automating Case Generation, Storage and Retrieval in
PRODIGY. Proceedings of the First International Workshop on Multistrategy Learning,
pp 363-377. Harpers-Ferry. George Mason University.

37
Veloso, M., Carbonell, J., Prez, A., Borrajo, D., Fink, E. y Blythe, J. (1995). Integrating Planning
and Learning: The Prodigy Architecture. Journal of Experimental and Theoretical
Artificial Intelligence. Vol. 7. No.1.
Wang, X. (1994). Learning Planning Operators by Observation and Practice. Proceedings of the
Second International Conference on Artificial Intelligence Planning Systems, pp 335-
340.
Wang, X. (1995). Learning by Observation and Practice: An Incremental Approach for Planning
Operator Acquisition. Proceedings of the 12th International Conference on Machine
Learning.
Wooldridge, M. (2011). An Introduction to Multiagent Systems, pp 21 - 47. Chichester, West
Sussex, U.K.: Wiley. ISBN 978-0-470-51946-2.

38

Gonzalez Trabajofinaldeespecialidad

Transféré par

Informations du document

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Gonzalez Trabajofinaldeespecialidad

Transféré par

Droits d'auteur :

Formats disponibles

APRENDIZAJE Y PLANIFICACIN

Lic. Ezequiel GONZLEZ

TRABAJO FINAL PRESENTADO PARA OBTENER EL GRADO

Key words: autonomous intelligent systems, environment-interaction based learning, exploration,

TRABAJO FINAL DE ESPECIALIZACIN EN ING. EN SISTEMAS DE INFORMACIN EZEQUIEL GONZLEZ

3.2.1 Evaluacin de los Planes Ejecutados 32

TRABAJO FINAL DE ESPECIALIZACIN EN ING. EN SISTEMAS DE INFORMACIN EZEQUIEL GONZLEZ

Figura 1 Agente que interacta con el medioambiente 2

TRABAJO FINAL DE ESPECIALIZACIN EN ING. EN SISTEMAS DE INFORMACIN EZEQUIEL GONZLEZ

TRABAJO FINAL DE ESPECIALIZACIN EN ING. EN SISTEMAS DE INFORMACIN EZEQUIEL GONZLEZ

Tabla 1 Casos de Refinamiento de EXPERIMENT 14

TRABAJO FINAL DE ESPECIALIZACIN EN ING. EN SISTEMAS DE INFORMACIN EZEQUIEL GONZLEZ

TRABAJO FINAL DE ESPECIALIZACIN EN ING. EN SISTEMAS DE INFORMACIN EZEQUIEL GONZLEZ

TRABAJO FINAL DE ESPECIALIZACIN EN ING. EN SISTEMAS DE INFORMACIN EZEQUIEL GONZLEZ

TRABAJO FINAL DE ESPECIALIZACIN EN ING. EN SISTEMAS DE INFORMACIN EZEQUIEL GONZLEZ

1.1 OBJETIVO Y METODOLOGA DEL TRABAJO

1.2 AGENTES INTELIGENTES

TRABAJO FINAL DE ESPECIALIZACIN EN ING. EN SISTEMAS DE INFORMACIN EZEQUIEL GONZLEZ

Un agente es un sistema informtico que interacta en un determinado medioambiente y que es

El concepto de autonoma se refiere a la capacidad de decidir qu acciones tomar para la consecucin

TRABAJO FINAL DE ESPECIALIZACIN EN ING. EN SISTEMAS DE INFORMACIN EZEQUIEL GONZLEZ

1.2.1 Inteligencia y Aprendizaje

- la medida de rendimiento que define el criterio de xito

En definitiva, y resumiendo lo descrito previamente, una definicin adecuada [Russel y Norvig,

TRABAJO FINAL DE ESPECIALIZACIN EN ING. EN SISTEMAS DE INFORMACIN EZEQUIEL GONZLEZ

1.2.2 Caractersticas del Entorno

Al momento de disear un agente inteligente autnomo es imprescindible conocer las propiedades

- Totalmente observable vs. Parcialmente observable: si los sensores del agente le

El caso ms complejo sera el de un entorno de trabajo parcialmente observable, estocstico,

TRABAJO FINAL DE ESPECIALIZACIN EN ING. EN SISTEMAS DE INFORMACIN EZEQUIEL GONZLEZ

1.3 SISTEMA INTELIGENTE AUTNOMO

i) percibe su entorno a travs de sus sensores y lo conceptualiza

TRABAJO FINAL DE ESPECIALIZACIN EN ING. EN SISTEMAS DE INFORMACIN EZEQUIEL GONZLEZ

TRABAJO FINAL DE ESPECIALIZACIN EN ING. EN SISTEMAS DE INFORMACIN EZEQUIEL GONZLEZ

2.1 APRENDIZAJE AUTOMTICO

2.1.1 Taxonoma del Aprendizaje

- Aprendizaje por memorizacin

TRABAJO FINAL DE ESPECIALIZACIN EN ING. EN SISTEMAS DE INFORMACIN EZEQUIEL GONZLEZ

2.1.2 Aprendizaje por Observacin y Descubrimiento

El aprendizaje por observacin y descubrimiento tambin recibe el nombre de aprendizaje no

- Observacin Pasiva: donde el aprendiz clasifica y taxonomiza las observaciones de los

2.1.3 Aprendizaje por Interaccin con el Entorno

De acuerdo a [Garca-Martinez, 1997], la cantidad de tiempo requerido para programar el

TRABAJO FINAL DE ESPECIALIZACIN EN ING. EN SISTEMAS DE INFORMACIN EZEQUIEL GONZLEZ

La exploracin (o bsqueda en lnea) es una forma de experimentacin activa donde el aprendizaje

2.1.5 Aprendizaje por Refuerzo

El aprendizaje por refuerzo se fundamenta en la psicologa conductista. Se basa en la simple

TRABAJO FINAL DE ESPECIALIZACIN EN ING. EN SISTEMAS DE INFORMACIN EZEQUIEL GONZLEZ

Figura 2.1 - Esquema bsico del aprendizaje por Refuerzo

TRABAJO FINAL DE ESPECIALIZACIN EN ING. EN SISTEMAS DE INFORMACIN EZEQUIEL GONZLEZ

2.2 SISTEMAS CON CONOCIMIENTO INCORPORADO POR EL

2.2.1 Sistema de Hayes-Roth

Figura 2.2 Arquitectura del sistema propuesto por Hayes-Roth

En la medida que el agente interacta con el medioambiente (gana experiencia), el conocimiento

TRABAJO FINAL DE ESPECIALIZACIN EN ING. EN SISTEMAS DE INFORMACIN EZEQUIEL GONZLEZ

- Un plan fue injustificado, de acuerdo a las teoras y supuestos del sistema

2.2.2 PRODIGY / EXPERIMENT

TRABAJO FINAL DE ESPECIALIZACIN EN ING. EN SISTEMAS DE INFORMACIN EZEQUIEL GONZLEZ

problemas y el aprendizaje del sistema. La interface es grfica y est vinculada directamente

- Nombre del operador

TRABAJO FINAL DE ESPECIALIZACIN EN ING. EN SISTEMAS DE INFORMACIN EZEQUIEL GONZLEZ

- Postcondiciones que aparecern/desaparecern del nuevo estado del mundo

Resultado Comportamiento Estrategia de Mtodo de Aprendizaje

Tabla 1 Casos de Refinamiento de EXPERIMENT