Académique Documents
Professionnel Documents
Culture Documents
EN
SISTEMAS INTELIGENTES AUTNOMOS
Alumno
Directores
Dr. Ramn Garca-Martnez (UNLa) y Mg. Daro RODRIGUEZ (UNLa)
ESCUELA DE POSGRADO
FACULTAD REGIONAL DE BUENOS AIRES
UNIVERSIDAD TECNLOGICA NACIONAL
Diciembre, 2013
RESUMEN
La caracterstica ms importante de un sistema inteligente autnomo es su capacidad de: (i) extraer
informacin del entorno para conformar una base de conocimiento propia, (ii) planificar sus acciones
y auto proponerse objetivos a partir de las situaciones percibidas y de las experiencias almacenadas,
y (iii) ejecutar las acciones seleccionadas y retroalimentar su base de conocimiento a partir de las
situaciones resultantes. Dado que este tipo de sistemas permite su implementacin en entornos donde
el conocimiento inicial sobre el dominio es nulo, su aplicacin abarca una amplia variedad de casos.
La robustez de estos modelos, cuyo aprendizaje surge de la interaccin con el entorno, se debe a que
permiten integrar los procesos de planificacin, ejecucin y aprendizaje en un ciclo cerrado.
En este contexto, se presenta una revisin de los mtodos de aprendizaje y planificacin de dichos
sistemas, haciendo foco en aquellos basados en la creacin de teoras para representar el entorno y
planificar sus acciones. Luego de una descripcin de los modelos ms relevantes, clasificados segn
la fuente de su conocimiento, la investigacin se centra en el modelo LOPE y en las modificaciones
que se le han aplicado en la ltima dcada.
Palabras clave: sistemas inteligentes autnomos, aprendizaje por interaccin con el entorno,
exploracin, planificacin, formacin y revisin de teoras, aprendizaje por refuerzo.
ABSTRACT
The main feature of autonomous intelligent systems is its ability to: (i) extract information from the
environment in order to elaborate its own knowledge base, (ii) plan its actions and self-propose goals
based on the perceived situations and past experiences, and (iii) execute selected actions and provide
feedback to its knowledge base from the resulting situations. Given that this type of systems allow its
implementation on environments with no initial knowledge, it is possible to apply them on a wide
range of cases. The robustness of these models, which learning emerge from its interaction with the
environment, is due to the integration of the planning, execution and learning process in a close loop.
In this context, a review of learning and planning methods of this kind of systems is presented,
focusing on those based on theory creation to represent the environment and to plan its actions. After
a description of the most relevant architectures classified according to the source of their knowledge,
the research focus on the LOPE model and the changes that have been applied to it in the last decade.
NDICE
1. INTRODUCCIN 1
1.1 OBJETIVO Y METODOLOGA DEL TRABAJO 1
1.2 AGENTES INTELIGENTES 1
1.2.1 Inteligencia y Aprendizaje 3
1.2.2 Caractersticas del Entorno 4
1.3 SISTEMA INTELIGENTE AUTNOMO 5
2. ESTADO DE LA CUESTIN 7
2.1 APRENDIZAJE AUTOMTICO 7
2.1.1 Taxonoma del Aprendizaje 7
2.1.2 Aprendizaje por Observacin y Descubrimiento 8
2.1.3 Aprendizaje por Interaccin con el Entorno 8
2.1.4 Exploracin 9
2.1.5 Aprendizaje por Refuerzo 9
2.2 SISTEMAS CON CONOCIMIENTO INCORPORADO POR
EL PROGRAMADOR Y AJUSTADO POR EL SISTEMA 11
2.2.1 Sistema de Hayes-Roth 11
2.2.2 PRODIGY/EXPERIMENT 12
2.3 SISTEMAS CON CONOCIMIENTO INCORPORADO POR EL SISTEMA 15
2.3.1 Sistema Inteligente Autnomo 15
2.3.2 LIVE 17
2.3.3 Sistema de Christiansen 19
2.4 EL MODELO LOPE 20
2.5 EXTENSIONES O MODIFICACIONES AL MODELO LOPE 24
2.5.1 SIA con aprendizaje basado en Intercambio de Operadores 24
2.5.2 SIA con ciclo de vida de Aprendizaje 26
2.5.3 Mtodo de Ponderacin basado en la productoria de
probabilidad de xito de acciones 27
2.5.4 Algoritmos Genticos aplicados a los SIA 28
3. CONCLUSIONES 31
3.1 RESUMEN DE LOS RESULTADOS DEL TRABAJO 31
3.2 FUTURAS LNEAS DE INVESTIGACIN 32
NDICE DE FIGURAS
NDICE DE TABLAS
NOMENCLATURA
AG Algoritmo Gentico
BIO Operadores Integrados (por sus siglas en ingls Built-In Operators)
EBL Aprendizaje basado en Explicaciones (por sus siglas en ingls Explanation-based
Learning)
LOPE Modelo de Aprendizaje a partir de la Observacin en ambientes de Planificacin (por
sus siglas en ingls Learning by Observation in Planning Environments)
LOPE-LLC Modelo LOPE con ciclo de vida de aprendizaje (por sus siglas en ingls Learning by
Observation in Planning Environments Learning Life Cycle)
SIA Sistema Inteligente Autnomo
TBO Operadores basados en Entrenamiento (por sus siglas en ingls Trained Based
Operators)
WIO Operadores de Interaccin Global (por sus siglas en ingls World Interaction
Operators)
1. INTRODUCCIN
En este captulo se presenta el objetivo y la metodologa del trabajo (seccin 1.1), algunas
definiciones bsicas sobre los agentes inteligentes (seccin 1.2) y una breve presentacin a los
sistemas inteligentes autnomos (seccin 1.3).
El objetivo del presente trabajo es elaborar un estado de la cuestin sobre los procesos de aprendizaje
y planificacin en sistemas inteligentes autnomos, particularmente en aquellas arquitecturas basadas
en la formacin y ponderacin de teoras.
El contenido del trabajo se estructura del siguiente modo. En el captulo 1 se brinda una breve
introduccin al concepto de agente inteligente (seccin 1.2) y se da una primera definicin de
sistema inteligente autnomo (seccin 1.3). En el captulo 2 se elabora una revisin de los mtodos
de aprendizaje y planificacin utilizados en los sistemas basados en la creacin de teoras para
representar su entorno. Para ello, se considera necesaria la inclusin de una taxonoma del
aprendizaje y la introduccin a ciertos conceptos claves relacionados al aprendizaje automtico
(seccin 2.1). A continuacin se describen algunos sistemas en los que el conocimiento del dominio
es incorporado por el programador y ajustado por el sistema (seccin 2.2); se presentan tres
arquitecturas en las que el conocimiento del dominio es incorporado directamente por el sistema
(seccin 2.3); se describe el modelo LOPE [Garca-Martinez y Borrajo, 2000] (seccin 2.4); y se
detallan todas las modificaciones o extensiones que se le han aplicado a dicho modelo en el
transcurso de los ltimos aos (seccin 2.5). Por ltimo, en el captulo 3 se presentan las
conclusiones del proyecto de investigacin. Primero se elabora un resumen de los resultados del
trabajo (seccin 3.1) y luego se sealan las oportunidades de mejora encontradas en el modelo LOPE
y las futuras lneas de investigacin propuestas (seccin 3.2).
A pesar de que no hay una definicin universalmente aceptada para el concepto de agente, s existe
un consenso general acerca de una caracterstica fundamental que debe presentar, esta es la
autonoma [Wooldridge, 2011]. De acuerdo con dicho autor, la definicin ms adecuada sera la
siguiente:
Un agente es cualquier unidad capaz de percibir su entorno a travs de sensores y actuar en ese
medio utilizando actuadores
Un agente humano, por ejemplo, posee cinco sentidos para percibir (la vista, el odo, el olfato, el
tacto y el gusto) y manos, piernas y boca para actuar. Por otra parte, un agente de software recibe
archivos, paquetes va red y entradas a travs del teclado; y acta sobre el medio mostrando mensajes
en el monitor, creando archivos o enviando paquetes. La figura 1 ilustra esta simple idea.
Figura 1 Agente que interacta con el medioambiente a travs de sus sensores y actuadores
Parte de la dificultad en tratar de dar una definicin general para el concepto de agente radica en que
en la mayora de los casos se le suele agregar atributos que slo aplican al dominio particular en el
que se est trabajando. Por ejemplo, para muchas aplicaciones, que el agente tenga la capacidad de
aprender de sus experiencias es de vital importancia, sin embargo hay algunos casos en los que no
slo es indistinto sino que tampoco es deseable (ej.: sistema de control de trnsito areo) [Russel y
Norvig, 1995].
Ahora bien, qu caracterstica tiene que presentar un agente para ser considerado inteligente? Un
agente racional o inteligente es aquel que hace lo correcto, y hacer lo correcto es aquello que le es
ms conveniente, o en trminos ms concretos, aquello que le permite al agente obtener el mejor
resultado [Russel y Norvig, 1995]. Sin embargo, para evaluar si un resultado es mejor o peor que
otro es necesaria una medida de rendimiento, pero obviamente no hay una nica medida de
rendimiento ptima para todos los agentes. Si se otorga la responsabilidad de la evaluacin de sus
acciones al mismo agente, muchos de ellos seran incapaces de responder o simplemente se
engaaran a s mismos. Por lo tanto, es importante la insistencia en medidas de rendimiento
objetivas, que normalmente sern determinadas por el diseador del sistema.
Un agente inteligente es aquel que toma acciones inteligentes (acciones que le permiten alcanzar el
mayor rendimiento), y para poder establecer si una accin ejecutada lo fue, hay que analizar cuatro
factores [Russel y Norvig, 1995]:
un agente inteligente es aquel que emprender aquella accin que supuestamente maximice
su medida de rendimiento, basndose para ello, en las evidencias aportadas por la secuencia
de percepciones y en el conocimiento que el agente mantiene almacenado
Esta definicin no supone omnisciencia (que el agente conozca el resultado de cada accin) ya que la
accin racional depende del conocimiento disponible al momento de la toma de decisin; pero s
implica que el agente aprenda lo mximo posible de la informacin recopilada para evitar incurrir en
un mal hbito a futuro. Un agente inteligente es aquel que, en la medida que van incrementndose las
interacciones con el medioambiente, logra apoyarse ms en el conocimiento surgido a partir de sus
propias percepciones que en el conocimiento inicial. Dicha cualidad es un requisito fundamental para
ser llamado agente inteligente, como tambin lo es que aprenda a compensar el conocimiento
incompleto o parcial inicial cuando la toma de decisiones lo requiera.
El modelo LOPE [Garca-Martinez y Borrajo, 2000], que se presenta en el siguiente captulo,
presenta un comportamiento inteligente y autnomo, ya que se ubica en la categora de los sistemas
cuyo conocimiento del dominio es incorporado directamente por el sistema, es decir, aprenden desde
cero.
- Determinista vs. Estocstico: se dice que el entorno es determinista si el siguiente estado del
medio est totalmente determinado por el estado actual y la accin ejecutada por el agente.
En caso contrario se lo llama estocstico.
- Esttico vs. Dinmico: si el entorno puede cambiar mientras el agente est en el proceso de
planificacin, entonces el entorno es dinmico para el agente; caso contrario, se lo define
como esttico. Los medios estticos son fciles de tratar ya que el agente no necesita estar
pendiente del medioambiente mientras est tomando una decisin.
- Discreto vs. Continuo: un ambiente es discreto si hay una cantidad finita y fija de acciones y
percepciones relacionadas a l.
posible. El modelo LOPE citado anteriormente supone un entorno esttico, que es parcialmente
observado por el sistema y que es representado de manera discreta y estocstica.
De acuerdo a lo descrito previamente y obviando por el momento la primera definicin formal del
concepto [Fritz et al., 1989], se entiende que un sistema inteligente autnomo es aquel que posee las
siguientes caractersticas:
La arquitectura LOPE cumple con estos requisitos. Dicho modelo es un sistema inteligente autnomo
que integra el proceso de planificacin, aprendizaje y ejecucin en un ciclo cerrado. El mismo puede
ser descrito como un robot explorador que percibe el entorno, a partir de lo percibido registra una
situacin y arma una teora local, planifica las acciones que llevar a cabo, ejecuta las acciones sobre
el entorno y aprende a partir de su interaccin con l.
2. ESTADO DE LA CUESTION
En este captulo se incluye una introduccin al aprendizaje automtico (seccin 2.1), se presenta una
resea de los sistemas cuyo conocimiento del dominio es incorporado por el programador y ajustado
por el sistema (seccin 2.2) y de aquellos sistemas en los que el conocimiento del dominio es
incorporado enteramente por el sistema (seccin 2.3). Luego se describe en detalle el modelo LOPE
(seccin 2.4) y, por ltimo, se presentan las extensiones o modificaciones a dicho modelo, elaboradas
a lo largo de la ltima dcada (seccin 2.5).
En la presente seccin se presenta una taxonoma del aprendizaje (seccin 2.1.1), se describe el
aprendizaje por observacin y descubrimiento (seccin 2.1.2) y el aprendizaje por interaccin con el
entorno (seccin 2.1.3). Por ltimo, se presenta el concepto de exploracin (seccin 2.1.4) y el de
aprendizaje por refuerzo (seccin 2.1.5).
Con base en la resea formulada en la tesis doctoral del Dr. Ramn Garca-Martinez [1997], se
presenta una posible taxonoma sobre aprendizaje [Carbonell et al., 1983; Michalski, 1986;
Kodratoff, 1988; Michalski y Kodratoff, 1990]:
En este trabajo se obviarn las explicaciones relacionadas a las primeras cuatro categoras y se
focalizar en el aprendizaje por induccin. El aprendizaje inductivo tiene como objetivo obtener
nuevo conocimiento a partir de hechos u observaciones. Es decir, este nuevo conocimiento no debe
estar de forma implcita dentro del conocimiento disponible. Se pueden mencionar como tipos de
aprendizaje inductivo al (i) aprendizaje por ejemplos y al (ii) aprendizaje por observacin y
descubrimiento. En el prximo inciso se describe con mayor detalle ste ltimo tipo de aprendizaje.
incorporado por el programador y ajustado por el sistema y aquellos donde el conocimiento sobre el
dominio es incorporado por el sistema. En las secciones posteriores se presentan dos arquitecturas
pertenecientes al primer caso (seccin 2.2) y tres modelos del segundo tipo (seccin 2.3, 2.4 y 2.5).
2.1.4 Exploracin
El objetivo de un agente basado en refuerzo es descubrir la mejor relacin entre los distintos estados
del entorno y la ejecucin de las acciones, de forma tal de maximizar la seal de refuerzo. La forma
de lograr dicho objetivo es implementando el mtodo de prueba y error. Es decir, en este tipo de
aprendizaje el agente debe descubrir cules son las acciones que le generan una mayor recompensa y,
para ello, el nico mtodo posible es probndolas. En la mayora de los casos, las acciones ejecutadas
no slo influyen en el refuerzo inmediatamente posterior sino en los que percibir ms adelante.
Estas dos caractersticas, prueba-error y refuerzo retardado, son los rasgos ms distintivos del
aprendizaje por refuerzo.
En la figura 2.1 [Sutton y Barto, 1998] se describe la dinmica bsica de este tipo de aprendizaje. En
el momento t el agente se encuentra en el estado st y con un refuerzo rt. La ejecucin de la accin at
resulta en una refuerzo rt+1 (puede ser una recompensa o castigo) y en un pasaje hacia el estado st+1.
Uno de los retos que se plantea el aprendizaje por refuerzo es el equilibrio entre la exploracin y la
explotacin. El conflicto de intereses es claro: por un lado el agente prefiere llevar a cabo las
acciones que se han ejecutado en el pasado y cuyas recompensas han demostrado ser altas; y por otro
lado, es evidente que para descubrir este tipo de acciones debe probar acciones que no se han
probado an. En otras palabras, el agente debe explotar lo que sabe hasta el momento para obtener
recompensas altas, pero tambin debe explorar nuevas acciones para conseguir acciones que en el
futuro le generen recompensas altas. Lo que se produce es un conflicto entre la recompensa de corto
plazo y la de largo plazo. El dilema consiste en que ninguna de ambas tareas puede ser ejecutada de
forma exclusiva sin que la otra falle. Por lo tanto, el agente deber balancear entre una tarea y la otra
para obtener el mejor rendimiento, y para ello tendr que ir probando una variedad de acciones
nuevas y de forma progresiva ir inclinndose hacia aquellas que lo recompensen mejor.
En esta seccin se presentan dos sistemas en donde el conocimiento del dominio es incorporado por
el programador y ajustado por el sistema. Ellos son: el sistema de Hayes-Roth (seccin 2.2.1) y el
sistema PRODIGY/EXPERIMENT (seccin 2.2.2).
Para aprender en un mundo real, dinmico y observable, un sistema necesita formular una teora
[Hayes-Roth, 1983] sobre los efectos de las acciones sobre su entorno. Hayes-Roth llam teoras al
conocimiento que encapsula los efectos de las acciones. Un sistema de este tipo necesita construir
planes, monitorear la ejecucin de esos planes para detectar expectativas no cumplidas y diagnosticar
y rectificar errores [Garca-Martinez, 1997]. La arquitectura del sistema se presenta en la figura 2.2.
el estado objetivo. Si el plan falla, se supone implcitamente que hubo un error en las teoras
asociadas. Las causas ms usuales de fallo de planes son las siguientes [Garca-Martinez, 1997]:
El sistema planifica para alcanzar sus objetivos y a su vez emplea mtodos heursticos para rectificar
los errores de las teoras vigentes. Esta rectificacin puede llevarse a cabo agregado o quitando
restricciones. Para llevar adelante esta tarea de mejoramiento de las teoras locales aplicadas al
proceso de planificacin, Hayes-Roth [1983] propone alguna de las siguientes heursticas:
- Retraccin: restringe las predicciones de la teora para que sea consistente con las
observaciones
- Exclusin: excluye la teora que fue aplicada a la situacin asociada al fallo
- Invalidacin: desecha las situaciones que niegan las predicciones de la teora
- Aseguracin: incluye las situaciones que confirman las predicciones de la teora
- Inclusin: restringe la teora incluyendo los casos que la confirman
Estas heursticas son la base de gran parte del trabajo vinculado al aprendizaje dentro de la
inteligencia artificial en general [Salzberg, 1985].
El sistema PRODIGY [Carbonell et al., 1990; Veloso et al., 1995] es un solucionador de problemas
de uso general y tambin un planificador. A partir de una situacin inicial definida, busca la mejor
secuencia de operadores (mejor plan) para poder alcanzar su objetivo. Dicha bsqueda es guiada por
un conjunto de reglas de control que se aplican en cada punto de decisin.
Como PRODIGY intenta resolver un problema, debe tomar decisiones sobre qu nodo expandir,
sobre qu objetivo trabajar, qu operador aplicar, y qu objetos usar. Estas decisiones pueden ser
influenciadas por un control de reglas para incrementar la eficiencia de la bsqueda de solucin del
problema y para mejorar la calidad de las soluciones que se encuentran.
A continuacin se enumeran los componentes propuestos, a partir de los cuales se articula el
aprendizaje:
- Aprendiz (Apprentice): una interface de usuario que puede participar en un dilogo parecido
al de un aprendiz [Joseph, 1989], permitiendo al usuario evaluar y guiar la resolucin de
Todos estos mdulos de aprendizaje estn en cierta medida integrados ya que todos dan las mismas
definiciones del dominio y comparten el mismo solucionador de problemas y estructuras de datos.
Luego de que cada mdulo obtiene sus conocimientos individualmente, estos son incorporados a la
base de conocimiento del sistema.
En EXPERIMENT, el refinamiento del conocimiento sobre el dominio puede ser representado como
el refinamiento de un conjunto de teoras sobre los operadores que modifican ese dominio. Cada
operador tiene la siguiente estructura:
Un plan est dado por una composicin de operadores. Si el plan falla, se busca la causa en la
definicin de las precondiciones o las postcondiciones de los operadores que forman el plan. Si se
interpreta al conjunto de los operadores como una teora de los efectos que determinadas operaciones
imprimen al estado del mundo, el fallo de un plan implica un fallo en la teora que debe ser refinada.
La tabla 1, presentada en [Garca Martinez, 1997], estudia tres casos de refinamiento:
Todas las Todas las Intentar planificar Comparar el fallo presente con la ltima
precondiciones precondiciones se sin ese operador. aplicacin con xito del operador, generar
se satisfacen en satisfacen, pero el Si falla esto: descripciones intermedias del mundo
el estado operador falla al suspender el plan mediante una bsqueda binaria para
inicial. ser aplicado. hasta que se identificar la parte necesaria del estado y
realice el agregarla a las precondiciones del
experimento. operador.
El operador se Al menos una Si la Comparar con la ltima vez que todas las
aplica y todas postcondicin postcondicin no postcondiciones fueron encontradas.
las falla en ser satisfecha es Desarrollar una bsqueda binaria en los
postcondiciones satisfecha. incidental, estados del mundo para determinar la
son satisfechas. ignorarla. Si es un parte necesaria para satisfacer todas las
estado objetivo, postcondiciones.
tratar con Luego, reemplazar con dos nuevos
diferentes operadores, uno con la nueva
operadores. precondicin y todas las postcondiciones
y el otro con la nueva precondicin
negada y sin la postcondicin puesta en
duda.
En esta seccin se presentan tres sistemas en donde el conocimiento del dominio es incorporado
directamente por el sistema. El primero de ellos es el Sistema Inteligente Autnomo (seccin 2.3.1),
el segundo es el sistema LIVE (seccin 2.3.2) y el ltimo, el sistema de Christiansen (seccin 2.3.3).
tratar de acceder a la nueva situacin que ms le convenga. Una vez hecho esto, el sistema recurre
al conjunto de experiencias acumuladas para delinear el plan de accin. Cada unidad de experiencia
se compone como mnimo de la situacin inicial, la accin ejecutada, la situacin final y el hecho de
que las consecuencias de la accin haya sido beneficiosa o no para lograr el objetivo. Este beneficio,
o la falta del mismo, se traducen en utilidad resultante. La accin que se llevar a cabo depender de
que el sistema encuentre o no, en las experiencias previas, alguna relacin con la situacin actual. En
caso afirmativo y considerando que el resultado de esa accin pasada haya resultado beneficiosa, el
sistema tender a repetir la accin previa. En caso que el resultado de esa accin haya sido
perjudicial, el sistema buscar acciones alternativas.
Frente a situaciones conocidas, los Sistemas Inteligentes tienden a desarrollar una actuacin que (por
experiencia) consideran ptima (no necesariamente es la ptima). Esta tendencia se denomina hbito.
Un mal hbito se da cuando el sistema persiste en un cierto actuar, aun cuando ste ya no
corresponde a la situacin. Por ltimo, cuando el sistema se encuentre ante una situacin nueva, este
podr actuar por azar, por intuicin o basndose en experiencias previas.
Una de las caractersticas ms importantes que se espera de un SIA es que aprenda lo mximo
posible de lo que est percibiendo y de la forma ms rpida. La importancia de este objetivo es ms
evidente cuando se trabaja con modelos en donde el agente no cuenta con ninguna informacin a
priori del entorno donde se encuentra. En estos casos, no slo la cantidad de interacciones ser un
factor preponderante en la eficiencia de su comportamiento, sino tambin la calidad de los procesos
de aprendizaje proporcionados por el diseador de software. En definitiva, en la medida que las
interacciones con su entorno sean altas y que el algoritmo de aprendizaje sea ms sofisticado, se ver
disminuido el tiempo en que el sistema alcance un comportamiento exitoso y eficiente, o en otras
palabras, la convergencia del modelo mejorar.
2.3.2 LIVE
Segn se sostiene en [Garca-Martinez, 1997], el trabajo de Shen (sistema LIVE) enfoca el problema
de aprendizaje a partir del entorno [Shen, 1989; Shen y Simon, 1989]. El objetivo es entender cmo
un sistema resuelve problemas en un medio desconocido a partir de acciones innatas y de las
percepciones. El aprendizaje es necesario porque en un nuevo entorno un aprendiz no puede saber "a
priori" las consecuencias de sus acciones ni las relaciones existentes entre las acciones y las
percepciones de forma completa.
El problema est motivado por dos hiptesis. La primera de ellas sostiene que el significado de los
smbolos en un sistema est arraigado en las acciones del sistema y en las percepciones, es decir, la
semntica es dependiente de la arquitectura. La segunda de las hiptesis de Shen consiste en que el
aprendizaje no slo es una de las actividades inteligentes bsicas sino que tiene una importancia
mayor que el razonamiento y la planificacin. Sostiene que el aprendizaje est estrictamente ligado a
las acciones y a las percepciones. Postula que si es cierto que la evolucin ha utilizado el 97% del
tiempo en acciones y percepciones [Moravec, 1988], la evolucin debe haber gastado por lo menos la
misma cantidad de tiempo en aprender. En este sentido, la segunda hiptesis de Shen apoya la idea
de que las acciones, las percepciones y el aprendizaje son bloques de construccin elementales de la
inteligencia.
En esta definicin las acciones son cambios fsicos que ocurren dentro del aprendiz; por ejemplo, una
seal que activa el motor que rota el brazo de un robot. Las consecuencias de las acciones pueden no
ser conocidas y estas consecuencias pueden variar de un entorno a otro. Esta definicin separa las
consecuencias de las acciones que las provocan y es un ingrediente clave para construir sistemas de
aprendizaje que sean adaptables a distintos entornos.
Las percepciones son representaciones internas de informacin que son perceptibles por el aprendiz
desde el entorno, son la salida de los dispositivos de percepcin del aprendiz. Dependiendo de estos
dispositivos innatos las percepciones del aprendiz pueden ser al mismo tiempo muy precisas o muy
vagas. Demasiada precisin puede exigir mucha potencia de procesamiento; demasiada vaguedad
puede llevar a que no se capturen caractersticas importantes del mundo.
Para construir el modelo del entorno, el aprendiz es libre de usar todas sus acciones y percepciones.
Slo existe un nico criterio para evaluar la calidad del modelo construido por el aprendiz: debe ser
suficiente para que el aprendiz alcance los objetivos de una manera deliberada. Es decir, debe
predecir correctamente las consecuencias de cada una de las acciones que son empleadas en la
solucin.
Obsrvese que no se exige al sistema que construya un modelo exacto del entorno. Esta es una
diferencia central entre la definicin de Shen y la de la mayor parte del trabajo terico existente en
aprendizaje a partir del entorno [Rivest y Schapire, 1987].
Segn lo descrito en la tesis doctoral del Dr. Garca-Martinez [1997], el trabajo de Christiansen
[1992] enfoca el aprendizaje automtico de los efectos de las acciones de un sistema autnomo en un
ambiente fsico. Los sensores y efectores del sistema le proveen un conjunto de valores que
describen los efectos de las acciones. Las imperfecciones en el sistema sensor-efector y las
caractersticas de las acciones fsicas se combinan para generar resultados observados con ruidos y
no deterministas. Por tal motivo, el aprendizaje exitoso de los efectos de las acciones requiere
algoritmos de aprendizaje tolerantes al ruido. Para lograr alcanzar los objetivos con xito se requiere
que el sistema sea capaz de razonar a partir de su incertidumbre y predecir el efecto de las acciones.
En este modelo, las acciones son representadas por operadores continuos llamados "funnels". Ellos
son computados por un algoritmo de aprendizaje emprico que tolera el ruido y que asegura no
realizar predicciones equivocadas.
El sistema interacta con su entorno a travs de sus sensores y sus efectores. Con el fin de lograr sus
objetivos, el sistema utiliza los sensores para obtener informacin del entorno y los efectores para
ajustar el entorno de un modo tal que permita la concrecin de los objetivos. En este contexto, el
sistema debe ser capaz de predecir los efectos de las acciones que genera el subsistema efector.
El trabajo de Christiansen se concentra en dos aspectos del aprendizaje desde el entorno, los cuales
han recibido poca atencin en la bibliografa: el tratamiento de las caractersticas del espacio
continuo y el tratamiento del ruido y de la incertidumbre.
Desde el punto de vista del aprendizaje del sistema, el entorno es una caja negra. El sistema provee
acciones como entradas al entorno y recibe estados percibidos a travs de los sensores. Las salidas
del entorno son llamadas estados, pero en general estos estados solo reflejan parcialmente los estados
verdaderos del entorno. En el trabajo de Christiansen, se asume que ambos, estados y acciones, son
conjunciones de valores ordenados, correspondientes a medidas continuas de las caractersticas del
entorno. Estos estados y acciones son descritos por puntos en un espacio multidimensional de
caractersticas. Los espacios relevantes son llamados espacio de estados S y espacio de acciones A.
Es conveniente describir la situacin actual como un punto en el espacio < estado, accin >. Este
punto indica el estado actual y la accin a ser ejecutada.
El problema atacado por Christiansen es el de predecir el resultado de la ejecucin de una accin
desde el estado percibido. Asumiendo que el sistema usa los sensores antes y despus de la ejecucin
de varias acciones, la informacin sobre los efectos de las acciones vuelve al sistema como una
cadena de puntos [s0, a0, s1, a1, s2, ... ]. Otra forma de ver esto es como una secuencia de estados de
transicin [s, a, r] (estado, accin, estado resultante).
Un aspecto interesante de este tipo de aprendizaje es que el sistema solo recibe ejemplos de su tema
de inters. Es decir, el sistema solo ve lo que puede ocurrir a partir del resultado de sus acciones;
nunca ve lo que no puede conseguir. Una aproximacin para la inferencia inductiva de los problemas
de esta clase es asumir familias de restricciones o formas funcionales para las respuestas, y aplicar
tcnicas de regresin para cambiar la mejor respuesta de acuerdo a algunas medidas de error. Estas
tcnicas de regresin permiten tratar con ruido y valores de caractersticas continuas.
Para que estas tcnicas sean exitosas se requiere que la familia de respuestas aceptables sea limitada
"a priori". Esta limitacin constituye una forma de sesgo inductivo. Para los sistemas que poseen una
gran cantidad de conocimiento inicial, tal como los sistemas de aprendizaje basado en explicaciones,
el xito del sistema de aprendizaje es altamente dependiente del conocimiento inicial elegido por el
programador humano.
Se asume que el sistema inicialmente tiene poco conocimiento sobre el entorno y que no posee
inicialmente ninguna habilidad para predecir el efecto de las acciones. El sistema tambin asume que
las caractersticas observadas (estado percibido) corresponden a medidas continuas de las
caractersticas del entorno, y que las caractersticas controladas (correspondientes a los parmetros
controlados de las acciones) representan cambios continuos con causa en los efectos de las acciones
fsicas. En adicin, asume tambin que los cambios de estado del entorno solo son por la influencia
de sus acciones. Por otra parte, asume que el entorno no es dinmico: como resultado de cada accin,
el entorno establece un estado invariante durante el tiempo en que el sistema usa los sensores para
medir los resultados de sus acciones. El supuesto de la invarianza del tiempo permite al sistema
generalizar sobre los estados de transicin observados, independientemente de la historia especfica
de cada uno de ellos.
una representacin del entorno que lo rodea y, basndose en l, ejecuta el siguiente ciclo de
planificacin/ejecucin/aprendizaje. En estos casos, como el robot slo est percibiendo su entorno
inmediato, la representacin del medioambiente no deja de ser parcial. Aun as, es posible llevar
adelante una extrapolacin y utilizar el conjunto de teoras existentes como base para el prximo
proceso de planificacin y ejecucin [Hayes-Roth, 1983].
Con el fin de acelerar la convergencia del modelo se incluyen criterios heursticos para hacer una
generalizacin de las observaciones (percepciones) obtenidas. Tambin se utilizan estimadores de
probabilidad que permiten gestionar las contradicciones que se generan en las descripciones de los
operadores.
El objetivo de la arquitectura LOPE es [Berlanga et al., 1999] el estudio y construccin de sistemas
capaces de, partiendo de conocimiento nulo: auto-proponerse metas; establecer planes para alcanzar
dichas metas; ejecutar los planes; y aprender cmo afectan las acciones del robot al entorno
(operadores) a partir de las desviaciones producidas al ejecutar las acciones de los planes.
En trabajos previos del autor [Garca-Martinez, 1997] la representacin de las teoras (operadores) se
fundament en el modelo propuesto en [Fritz et al., 1989], en donde una observacin (o unidad de
experiencia) tena la siguiente estructura:
Con este tipo de estructura las percepciones son utilizadas directamente en el armado de la teora
local, sin ningn tipo de ajuste, es decir, la percepcin y la teora son una misma cosa, no hay ningn
proceso de anlisis en el medio. En el modelo LOPE, el concepto de percepcin se mantiene
idntico pero la estructura de las teoras locales es extendida, ya que se le agregan ciertas
caractersticas que permitan evaluar la confiablidad de los planes antes de ser ejecutados. En este
caso, la estructura resultante tiene la siguiente forma:
donde K representa la cantidad de veces que una teora fue utilizada y P el nmero de instancias en
que esa teora fue utilizada con xito. Por otro lado, la utilidad es el criterio utilizado para armar los
planes. El objetivo del agente, o ms precisamente de su proceso de planificacin, es el de alcanzar la
situacin de mayor utilidad. Es importante tener en cuenta que la utilidad no es una variable de
entrada para el agente sino que est determinado implcitamente por el sistema en su conjunto. Es
decir, cada coordenada espacial del entorno ya tiene asociada una utilidad definida a priori por el
diseador del sistema.
La figura 2.6 describe los procesos de observacin, planificacin, ejecucin y aprendizaje del
modelo. Al comienzo el sistema no posee ningn conocimiento, por lo que simplemente percibe la
situacin inicial, elige una accin aleatoria y la ejecuta. A partir de esta primera accin, el agente
percibe una nueva situacin y arma una teora local con la situacin previa y la accin ejecutada.
A partir de la comparacin de la nueva teora local armada y las teoras ya registradas en el sistema,
se procede de alguna de las siguientes maneras:
- Si la teora local es igual a alguna teora registrada, sta se refuerza. Para ello se incrementa el
P y el K de la teora registrada y se incrementa el K de las teoras similares.
- Si la teora local es similar a alguna teora registrada, se registra la nueva teora local; se
registra una nueva teora mutante; se incrementa el P de la nueva teora local y la mutante; se
estandarizan los K de la teora nueva y las teoras similares; y se asigna el nivel de utilidad a
las nuevas teoras.
- Si no existe una teora igual ni similar a la teora local, se registra la nueva teora local, se
incrementa el P y el K de la nueva teora y se le asigna el nivel de utilidad que le corresponde.
Si existe un plan en ejecucin, se verifica que la situacin obtenida sea la esperada. Si esto ocurre, el
control se pasa al mdulo ejecutor, que selecciona la accin y la ejecuta. En caso que la situacin
obtenida no haya sido la esperada, se aborta el plan y el control es devuelto al planificador.
Si no existe un plan en ejecucin, ya sea porque la ltima accin del plan fue ejecutada o porque la
accin ejecutada no era parte de un plan (accin inicial o plan de contingencia), entonces el control
se pasa al planificador y ste genera uno.
El planificador lleva adelante los siguientes pasos para la creacin del plan: arma la pila de
situaciones deseables, elige la situacin con mayor nivel de utilidad, procede al armado del rbol de
situaciones asociado y verifica que exista un camino de mnimo recorrido entre la situacin actual y
la deseada. En caso que exista ese camino se arma el plan, se construye su matriz de valoracin y a
partir de ella, se evala la calidad del plan. Si el plan resulta confiable (la probabilidad de xito es
superior al umbral de confiabilidad) se traslada el control al mdulo ejecutor, quien selecciona la
siguiente accin y la ejecuta. Si el plan no resulta confiable y quedan situaciones deseables en la pila
se toma la siguiente situacin deseable de ella y se repiten los mismos pasos. Si el plan no resulta
confiable pero no quedan ms situaciones deseables en la pila, se pasa el control al mdulo ejecutor y
ste ejecuta el plan de contingencia. Por ltimo, si no existe un camino de mnimo recorrido entre la
situacin actual y la deseada y an quedan situaciones deseables en la pila, se toma la siguiente
situacin deseable y se ejecutan los pasos ya descritos; si no quedan situaciones deseables se ejecuta
el plan de contingencia.
En esta seccin se describen las cuatro modificaciones al modelo LOPE que se han elaborado en los
ltimos aos: (i) SIA con aprendizaje basado en intercambio de teoras (seccin 2.5.1), (ii) SIA con
ciclo de vida de aprendizaje (seccin 2.5.2), (iii) actualizacin del mtodo de ponderacin del
modelo, basado en la productoria de probabilidad de xito de acciones (seccin 2.5.3) y (iv) la
implementacin de algoritmos genticos al SIA (seccin 2.5.4).
De acuerdo a la resea formulada en la tesis doctoral del Dr. Ierache [2010], esta arquitectura de
sistema inteligente autnomo tambin percibe el entorno a travs del sistema sensor, pero antes de
realizar cualquier accin, se pregunta si es necesario intercambiar operadores con otro sistema
inteligente autnomo [Garca-Martnez et al., 2006]. Este proceso se lleva a cabo mediante un
mdulo de intercambio de operadores. Luego, se registra la situacin percibida del entorno, y arma
una teora local con la situacin previa y la accin ejecutada. En la figura 2.7 se presenta la
arquitectura del sistema, donde se observa su interaccin con el entorno y el funcionamiento general
de los mdulos de aprendizaje, planificacin, ponderacin, control e intercambio de operadores.
Si la teora local es igual a alguna teora registrada, sta se refuerza, si no existe una teora igual pero
existen similares, stas se ponderan y se generan teoras mutantes las cuales son registradas y
ponderadas de la misma forma. Por ltimo (luego del proceso de generar teora mutantes o si no
existen teoras similares) se incorpora la teora local y se pasa el control al subsistema controlador.
Figura 2.7 Esquema del SIA con aprendizaje basado en formacin y ponderacin de teoras
Si existe un plan en ejecucin, se verifica que la situacin obtenida sea la esperada; si no ocurre esto,
se aborta el plan y el control es devuelto al planificador. Si no existe un plan en ejecucin, el
planificador genera uno, lo enva al ponderador y mediante un criterio heurstico, se determina si el
En [Ierache et al., 2008] se presenta una extensin al modelo LOPE en la que se incluye un ciclo de
vida de aprendizaje de tres capas:
1. Operadores Integrados (BIO): capa de aprendizaje donde los operadores (teoras) son
implantados en el sistema por el programador.
2. Operadores basados en entrenamiento (TBO): capa de aprendizaje donde las teoras son
diseadas previamente por el programador y luego se le aplican tcnicas de aprendizaje
evolutivo.
3. Operadores de interaccin global (WIO): capa de aprendizaje donde los operadores son
aprendidos por la interaccin con el medioambiente y con otros SIAs.
El ciclo de vida de aprendizaje propuesto para el modelo LOPE-LLC (LOPE Learning Life Cycle) se
observa en la figura 2.8. El SIA nace con los operadores implantados por el programador, los
cuales representan el conocimiento bsico y que permite el comportamiento reactivo inicial del
sistema. La evolucin de este conocimiento se lleva a cabo a travs de los operadores aprendidos por
entrenamiento. Dicho aprendizaje incluye las tcnicas de refuerzo: se castigan los malos operadores
y se recompensan los buenos. Tambin se incluyen criterios heursticos para crear algoritmos
generalizados e incluirlos al conjunto de operadores existentes. Dado que la gran cantidad de
operadores almacenados podran disminuir el rendimiento de los mdulos de planificacin y
aprendizaje, el sistema automticamente deja de lado los operadores con cocientes P/K bajos.
Al igual que el modelo LOPE original, el sistema LOPE-LLC busca aprender, por s mismo, aquellos
operadores que permitan predecir los efectos de sus acciones en el medioambiente. Esto lo consigue
observando las consecuencias de sus acciones. Resumiendo, este sistema es capaz de: (i) proponerse
sus propios objetivos, (ii) ejecutar los planes, (iii) encontrar la conducta correcta e incorrecta, (iv)
aprender a partir de los BIO, (v) refinar el conocimiento del sistema a partir de la creacin de los
TBO usando mtodos de refuerzo y (vi) evolucionar a partir del intercambio de los WIO.
En la etapa de aprendizaje de los TBO, el sistema recibe las percepciones del entorno (situaciones),
aplica las acciones y aprende a partir de la interaccin con el ambiente de entrenamiento diseado.
En este caso, la situacin inicial percibida por el sistema es representada a partir de sus BIO, pero
luego selecciona una accin al azar, elegida a partir del conjunto de sus TBO. Tanto los BIO como
los TBO, tambin son utilizados ms adelante durante la etapa de aprendizaje de los WIO. Sobre la
base de las tres capas del modelo LLC propuesto, el sistema evoluciona alcanzando cada uno de los
cuatro estados de madurez: (1) nacido (born), (2) novato (newbie), (3) entrenado (trained) y
(4) maduro (mature).
Cada una de las capas incluye las siguientes etapas: (a) situacin inicial del mundo (entorno y otros
SIAs), (b) acciones basadas en los operadores del sistema, de acuerdo a los planes, (c) situacin final
prevista, (d) estimacin de los operadores del sistema (P, K, U), (e) intercambio de operadores con
otros SIAs, (f) proceso de aprendizaje, (g) evolucin del sistema hacia el prximo estado.
Cuando el SIA nace (estado inicial), el programador le provee de operadores que le permitan
iniciar su funcionamiento. El proceso dentro de la primera capa evoluciona a medida que se van
compartiendo los BIO con otros SIAs y que se llevan adelante tareas de aprendizaje. Llega un punto
en que el sistema alcanza el nivel novato. En esta nueva capa aprende a partir del entrenamiento y
comparte los BIO y los TBO, lo que le permite alcanzar el nivel entrenado. Finalmente, se inicia el
camino de la ltima capa, en donde el sistema es capaz de compartir sus BIO, TBO y WIO, hasta que
alcanza el estado maduro.
En [Lpez et al., 2008] se propone un nuevo algoritmo de ponderacin de planes con el objetivo de
mejorar el rendimiento del sistema (porcentaje de planes exitosos). Para estimar la probabilidad de
xito de los planes, el mtodo clsico de ponderacin se basa en la teora de autmatas estocsticos,
ya que el conocimiento que posee el sistema en un momento dado (el conjunto de teoras), puede ser
visto como un modelo de cmo reaccionar el entorno frente a las acciones que ejecuta el sistema. O
sea, si se consideran todos los estados en que puede encontrarse el autmata cuando recibe una
entrada, puede definirse una matriz de transicin que contenga la probabilidad de xito del plan.
La primera modificacin que lleva adelante Lpez es dar una nueva representacin para la definicin
de un plan. Mientras que en el modelo LOPE original, un plan tiene la siguiente estructura:
Pij = A1 o A2 o . . . o Ar
donde A1, A2 y Ar identifican a cada una de las acciones necesarias para alcanzar la situacin
esperada; con la nueva propuesta, un plan se representa del siguiente modo:
P*ij = (Si1, A1 ,Sf1 ,P1 ,K1 ) o (Si2 , A2 ,Sf2 ,P2 ,K2 ) o . . . o (Sir , Ar ,Sfr ,Pr ,Kr )
La diferencia entre ambas definiciones radica en que, si bien ambas representan un mismo plan, la
segunda contiene mayor informacin, ya que expresa el plan como una composicin de las r teoras
en que se bas su construccin, haciendo explcitas las respectivas situaciones iniciales y finales
esperadas a cada paso de la ejecucin del plan.
En segundo lugar, mientras que el modelo clsico se basa en la matriz de transicin para calcular la
probabilidad de xito de un determinado plan, en el mtodo propuesto, la probabilidad estimada de
que el plan P*ij aplicado a la situacin Si resulte en la situacin Sj, se obtiene calculando el siguiente
producto de nmeros escalares:
Es decir, en este ltimo caso, la probabilidad de xito del plan es igual a la productoria de las
probabilidades de xito de cada uno de las acciones por separado.
Para operar, un AG simula la evolucin de una poblacin de individuos. Para ello, se genera una
poblacin inicial de individuos y luego se ejecuta un proceso iterativo de seleccin, cruzamiento y
mutacin. En la seleccin, se imita al mecanismo de seleccin natural, eligiendo los individuos ms
aptos de la poblacin para que su informacin gentica permanezca las siguientes generaciones. El
cruzamiento simula la reproduccin sexual de los individuos, permitiendo que los individuos con
ms aptitud generen nuevos individuos (hijos) combinando sus genes. Esta mezcla de cdigo
gentico, provee un mtodo de bsqueda altamente eficiente en el espacio de estructuras [Garca
Martnez et al., 2003]. La mutacin contribuye a la diversidad gentica de la poblacin, alterando de
manera aleatoria el valor de uno o ms genes de cualquier individuo existente.
Figura 2.9 Arquitectura del SIA con la implementacin del Algoritmo Gentico
La figura 2.9 describe la arquitectura del sistema propuesta en [Steinhilber et al., 2009]. En este
trabajo el AG es implementado del siguiente modo. Una vez que este percibe una nueva situacin, se
procede al armado de la teora local. Si existe al menos una teora similar y no hay teoras iguales a la
nueva teora local, se ponderan las teoras similares, se generan las teoras mutantes, se registran y
ponderan las teoras mutantes y se incorpora la teora local. Luego, si se sucedi una cantidad
mnima de ciclos sin aplicar AG y se iguala o supera una cantidad especfica de teoras, se aplica el
AG al conjunto de teoras del SIA.
El AG acelera los tiempos de aprendizaje del SIA, ya que al combinarlo con otras estrategias,
provoca un aumento en la cantidad de teoras que el sistema adquiere. Tambin se observa un gran
aumento de teoras cuando se combina mutacin, intercambio, ponderacin y AG, en comparacin
con los resultados obtenidos sin AG.
3. CONCLUSIONES
En este captulo se presenta un resumen de los resultados del trabajo de investigacin (seccin 3.1) y
las futuras lneas de investigacin surgidas a partir de l (seccin 3.2).
El presente trabajo constituye una revisin de los mtodos de aprendizaje y planificacin utilizados
en aquellos sistemas que se basan en la creacin de operadores o teoras (operadores ponderados)
para representar el entorno que los rodea y planificar sus acciones. El trabajo se centra en los
llamados Sistemas Inteligentes Autnomos, concepto presentado por primera vez en [Fritz et al.,
1989] y definido como aquel sistema que:
iii. construye sus propios planes para alcanzar sus objetivos, basndose en su propia experiencia
(percepciones almacenadas en memoria),
Dentro de los sistemas que aprenden a partir de la interaccin con el entorno, es posible hablar de dos
categoras: (a) aquellos en donde el conocimiento sobre el dominio es incorporado por el
programador y ajustado por el sistema y (b) aquellos en donde el conocimiento sobre el dominio es
incorporado puramente por el sistema [Garca-Martinez, 1997]. Este trabajo se focaliza en el ltimo
grupo, aunque se describen algunos sistemas importantes de ambos tipos para contextualizar los
conceptos.
En lnea con el trabajo de Fritz [1989], aos ms tarde se presenta el modelo LOPE [Garca-Martnez
y Borrajo; 1997; 2000], un sistema inteligente autnomo con aprendizaje basado en formacin y
ponderacin de teoras. Dicho modelo pertenece a la categora (b) recientemente descrita y puede ser
descrito como un robot de exploracin que percibe el entorno a travs del sistema sensor y registra
teoras locales a partir de la situacin previa, la accin ejecutada y la situacin resultante. La
caracterstica nueva de este modelo es que las teoras son ponderadas de acuerdo al nmero de veces
que stas fueron utilizadas con xito en el proceso de planificacin. Dicha ponderacin sirve, luego,
para evaluar la calidad del plan antes de ser ejecutado y de esta forma evitar ejecutar planes con baja
probabilidad de xito.
A partir de la publicacin de la arquitectura LOPE, en la ltima dcada se han elaborado varias
modificaciones al modelo que han logrado mejorar el rendimiento de su aprendizaje y de su
planificacin:
2) En [Ierache et al., 2008] se utiliz un sistema multiagente pero en este caso se implement un
ciclo de vida de aprendizaje y se definieron distintos perfiles de agentes, cada uno de los
cuales con un determinado mtodo de adquisicin y transmisin de conocimiento;
A pesar de que cada una de las modificaciones y extensiones aplicadas al sistema LOPE mejor el
rendimiento del mismo, hay ciertos aspectos del modelo que an no han sido abordados y, por lo
tanto, podran ser el objetivo de futuras lneas de investigacin. A continuacin se describen las dos
oportunidades de mejora identificadas a lo largo de la presente investigacin.
En primer lugar, es importante destacar que tanto en el modelo LOPE original como en las variantes
mencionadas, el proceso de aprendizaje slo se produce dentro de la fase de observacin. En esta
etapa, de acuerdo al resultado de lo percibido por el sistema sensor, el sistema refuerza teoras o
pondera y crea teoras mutantes. Ahora bien, en el caso que exista un plan en ejecucin y que uno de
sus pasos no haya logrado la situacin esperada, el sistema slo se limita a abortar el plan y a
devolver el control al planificador; perdiendo la oportunidad de incrementar su aprendizaje a partir
del resultado de los planes. Por lo tanto, dado que un plan consiste en una concatenacin de teoras,
generar un mecanismo que refuerce o castigue las teoras involucradas en ellos, de acuerdo a su xito
o fracaso, mejorara sin dudas el proceso de aprendizaje del modelo.
4. REFERENCIAS
Berlanga, A., Borrajo, D., Fernndez, F., Garca-Martnez R., Molina, J. & Sanchis, A. (1999).
Robtica Cognoscitiva y Aprendizaje Automtico. Conferencia de la Asociacin
Espaola para la Inteligencia Artificial. VIII. 1-8. Murcia. Espaa.
Bock, P. (1985). The Emergence of Artificial Intelligence: Learning to learn. A.I. Magazine Fall,
pp 180-190. EEUU.
Carbonell, J., Gil, Y. (1990). Learning by experimentation: The operator refinement method. En
Michalski, R. S. and Kodratoff, Y., editors, Machine Learning: An Artificial Intelligence
Approach, Volume III, pp 191213. Morgan Kaufmann, Palo Alto, CA.
Carbonell, J., Knoblock, C. A. y Minton S. (1990). PRODIGY: An Integrated Architecture for
Planning and Learning. En Architectures for Intelligence editado por Kurt VanLehn.
Erlbaum.
Carbonell, J., Michalski, R. y Mitchell T. (1983). An Overview of Machine Learning. En Machine
Learning: The Artificial Intelligence Approach Volumen I editado por Michalski, R.,
Carbonell, J., y Mitchell T. Morgan Kaufmann.
Christiansen, A. (1992). Automatic Acquisition of Task Theories for Robotic Manipulation. Tesis
Doctoral, School of Computer Science, Universidad Carnegie Mellon.
Etzioni, O. (1990). A Structural Theory of Explanation-Based Learning. Tesis Doctoral, School of
Computer Science, Carnegie Mellon University.
Fritz, W. (1984). The Intelligent System. SIGART Newsletter, 90: 34-38. ISSN 0163-5719.
Fritz, W. (1992). World view and learning systems. Robotics and Autonomous Systems 10(1): 1-7.
ISSN 0921-8890.
Fritz, W., Garca Martnez, R., Rama, A., Blanqu, J., Adobatti, R. y Sarno, M. (1989). The
Autonomous Intelligent System. Robotics and Autonomous Systems, 5(2):109-125.
ISSN 0921-8890.
Garca-Martnez, R. (1997). Un Modelo de Aprendizaje por Observacin en Planificacin. Tesis
Doctoral, Facultad de Informtica, Universidad Politcnica de Madrid.
Garca-Martnez, R. y Borrajo, D. (1997). Planning, Learning and Executing in Autonomous
Systems. Lecture Notes in Artificial Intelligence 1348: 208-210. ISBN 978-3-540-
63912-1.
Garca-Martnez, R. y Borrajo, D. (2000). An Integrated Approach of Learning, Planning and
Executing. Journal of Intelligent and Robotic Systems 29(1): 47-78. ISSN 0921-0296.
Garca-Martnez, R., Borrajo, D., Britos, P. y Maceri, P. (2006). Learning by Knowledge Sharing in
Autonomous Intelligent Systems. Lecture Notes in Artificial Intelligence, 4140: 128-137.
ISBN 978-3-540-45462-5.
Garca-Martnez, R., Servente, M. y Pasquini, D. (2003). Sistemas Inteligentes (pp. 149-280).
Buenos Aires: Editorial Nueva Librera. ISBN 987-1104-05-7.
Hayes-Roth, F. (1983). Using Proofs and Refutations to Learn from Experience. En Machine
Learning: The Artificial Intelligence Approach Volumen I editado por Carbonell J.,
Michalski R. y Mitchell T. Morgan Kaufmann.
Ierache, J. (2010). Modelo de ciclo de vida para el aprendizaje basado en comparticin de
conocimientos en sistemas autnomos de robots. Tesis Doctoral en Ciencias
Informticas, Facultad de Informtica, Universidad Nacional de La Plata.
Ierache, J., Garca-Martnez, R. y De Giusti, A. (2008), Learning Life-Cycle in Autonomous
Intelligent Systems. Artificial Intelligence in Theory and Practice II, ed. M. Bramer,
(Boston: Springer), pp 451- 455, ISSN 1571-5736.
Joseph, R. (1989). Graphical Knowledge Acquisition. Proceedings 4th Knowledge Acquisition for
Knowledge-Based Systems Workshop. Banff. Canada.
Knoblock, C. A. (1994). Automatically generating abstractions for planning. Artificial
Intelligence, 68.
Kodratoff, Y. (1988). Introduction to Machine Learning. Morgan Kaufmann.
Lpez, D., Merlino, H., Ierache, J. y Garca Martnez, R. (2008). A Method for Pondering Plans in
Autonomous Intelligent Systems. Anales V Workshop de Inteligencia Artificial Aplicada
a la Robtica Movil, pp 98-104. ISBN 978-987-604-100-3.
Michalski, R. (1986). Understanding the Nature of Learning: Issues and Research Directions. En
Machine Learning: The Artificial Intelligence Approach Volumen II editado por
Michalski, R., Carbonell, J., y Mitchell T. Morgan Kaufmann.
Michalski, R y Kodratoff, Y. (1990). Research in Machine Learning: Recent Progress,
Classification of Methods and Future Directions. En Machine Learning: The Artificial
Intelligence Approach Volumen III editado por Kodratoff, Y. y Michalski, R. Morgan
Kaufmann.
Minsky, M. (1954). Theory of Neural-Analog Reinforcement Systems and Its Application to the
Brain-Model Problem. Tesis Doctoral, Universidad de Princeton.
Minsky, M. (1963). Steps Toward Artificial Intelligence. En Computers and Thought. Editado por
Feigenbaum, E. y Feldman, J. McGraw-Hill.
Minsky, N. y Selfridge, O. (1961). Learning In Random Nets. Information Theory: Fourth London
Symposium. Butterworths.
Minton, S. (1989). Learning Effective Search Control Knowledge: An Explanation-Based
Approach. Tesis Doctoral, Computer Science Department, Carnegie Mellon University.
Minton, S. (1990). Quantitative Results Concerning the Utility of Explanation-Based Learning.
Artificial Intelligence. Volumen 42, pp 363-392.
Mondada, F., Franzi, E. y Guignard A. (1999). The Development of Khepera. First International
Khepera Workshop, Paderborn, HNI-Verlagsschriftenreihe, Heinz Nixdorf Institut 64.
Moravec, H. (1988). Mind Children, The future of robot and human intelligence. Harvard
University Press.
Rivest, R. y Schapire, R. (1987). Diversity-based Inference of Finite Automata. Proceedings of
Foundation of Computer Science. IEEE Press.
Russell, S., Norvig, P. (2004). Inteligencia Artificial. Un enfoque moderno, pp 37-144. Madrid:
Pearson Educacin. ISBN 84-205-4003-X.
Salzberg, S. (1985). Heuristics for Inductive Learning. Proceedings of Ninth International Joint
Conference on Artificial Intelligence, pp 603-609. EE.UU.
Shen, W. (1989). Learning from the Environment Based on Actions and Percepts. Tesis Doctoral,
Universidad Carnegie Mellon.
Shen, W y Simon, H. (1989). Rule Creation and Rule Learning Through Environmental
Exploration. Proceedings of Eleventh International Joint Conference on Artificial
Intelligence, pp 675-680. Morgan Kauffman.
Steinhilber, R., Garca-Martnez, R. y Kuna, D. (2009). Mutacin de Teoras en Sistemas
Inteligentes Autnomos Basada en Algoritmos Genticos. Proceedings VII Campeonato
de Ftbol de Robots y Workshop de Sistemas Autnomos de Robots, pp 24-33. ISBN
978-950-9474-45-1.
Sutton, R. y Barto, A. (1998). Reinforcement Learning: An Introduction. Cambridge, MA: MIT
Press.
Veloso, M. y Carbonell, J. (1990). Integrating analogy into a general problem-solving
architecture. En Intelligent Systems. Ellis Horwood Limited, West Sussex, England.
Veloso, M. y Carbonell, J. (1991). Automating Case Generation, Storage and Retrieval in
PRODIGY. Proceedings of the First International Workshop on Multistrategy Learning,
pp 363-377. Harpers-Ferry. George Mason University.
Veloso, M., Carbonell, J., Prez, A., Borrajo, D., Fink, E. y Blythe, J. (1995). Integrating Planning
and Learning: The Prodigy Architecture. Journal of Experimental and Theoretical
Artificial Intelligence. Vol. 7. No.1.
Wang, X. (1994). Learning Planning Operators by Observation and Practice. Proceedings of the
Second International Conference on Artificial Intelligence Planning Systems, pp 335-
340.
Wang, X. (1995). Learning by Observation and Practice: An Incremental Approach for Planning
Operator Acquisition. Proceedings of the 12th International Conference on Machine
Learning.
Wooldridge, M. (2011). An Introduction to Multiagent Systems, pp 21 - 47. Chichester, West
Sussex, U.K.: Wiley. ISBN 978-0-470-51946-2.