Modelo de acción de aprendizaje
El aprendizaje del modelo de acción (a veces abreviado aprendizaje de acción ) es un área de aprendizaje automático relacionada con la creación y modificación del conocimiento del agente de software sobre los efectos y las condiciones previas de las acciones que se pueden ejecutar en su entorno. Este conocimiento generalmente se representa en un lenguaje de descripción de acción basado en la lógica y se utiliza como entrada para los planificadores automatizados.
Aprender modelos de acción es importante cuando los objetivos cambian. Cuando un agente actuó por un tiempo, puede usar su conocimiento acumulado sobre acciones en el dominio para tomar mejores decisiones. Por lo tanto, los modelos de acción de aprendizaje difieren del aprendizaje por refuerzo. Permite razonar sobre acciones en lugar de pruebas costosas en el mundo.
El aprendizaje del modelo de acción es una forma de razonamiento inductivo, donde se genera nuevo conocimiento basado en las observaciones del agente. Se diferencia del aprendizaje supervisado estándar en que nunca se presentan pares de entrada / salida correctos, ni en modelos de acción imprecisos corregidos explícitamente.
La motivación habitual para el aprendizaje del modelo de acción es el hecho de que la especificación manual de los modelos de acción para los planificadores es a menudo una tarea difícil, lenta y propensa a errores (especialmente en entornos complejos).
Modelos de acción
Dado un conjunto de entrenamiento {\ displaystyle E}mi que consiste en ejemplos {\ displaystyle e = (s, a, s ‘)}{\ displaystyle e = (s, a, s ‘)}, dónde {\ displaystyle s, s ‘}{\ displaystyle s, s ‘} son observaciones de un estado mundial a partir de dos pasos de tiempo consecutivos {\ displaystyle t, t ‘}{\ displaystyle t, t ‘} y {\ displaystyle a}unaes una instancia de acción observada en el paso del tiempo{\ displaystyle t}t, el objetivo del aprendizaje del modelo de acción en general es construir un modelo de acción {\ displaystyle \ langle D, P \ rangle}{\ displaystyle \ langle D, P \ rangle}, dónde {\ displaystyle D}rees una descripción de la dinámica de dominio en formalismo de descripción de acción como STRIPS, ADL o PDDL y{\ displaystyle P}PAGS es una función de probabilidad definida sobre los elementos de {\ displaystyle D}re.
Sin embargo, muchos métodos de aprendizaje de acción de última generación asumen determinismo y no inducen{\ displaystyle P}PAGS. Además del determinismo, los métodos individuales difieren en la forma en que tratan con otros atributos de dominio (por ejemplo, observabilidad parcial o ruido sensorial).
Métodos de aprendizaje de acción
Estado del arte
Los métodos de aprendizaje de acción recientes adoptan diversos enfoques y emplean una amplia variedad de herramientas de diferentes áreas de inteligencia artificial y lógica computacional. Como ejemplo de un método basado en la lógica proposicional, podemos mencionar el algoritmo SLAF (aprendizaje y filtrado simultáneos), que utiliza las observaciones del agente para construir una fórmula proposicional larga a lo largo del tiempo y, posteriormente, la interpreta utilizando un solucionador de satisfacción (SAT).
Otra técnica, en la que el aprendizaje se convierte en un problema de satisfacción ( MAX-SAT ponderado en este caso) y se utilizan solucionadores SAT, se implementa en ARMS (Sistema de modelado de relación y acción). Dos enfoques mutuamente similares y totalmente declarativos para el aprendizaje activo se basaron en el paradigma de programación lógica Programación de conjunto de respuestas (ASP) y su extensión, ASP reactiva.
En otro ejemplo, se empleó un enfoque de programación lógica inductiva ascendente. Varias soluciones diferentes no están directamente basadas en la lógica. Por ejemplo, el modelo de acción de aprendizaje utilizando un algoritmo perceptrón o la búsqueda codiciosa multinivel en el espacio de posibles modelos de acción.
En el artículo anterior de 1992, se estudió el aprendizaje del modelo de acción como una extensión del aprendizaje de refuerzo.
Literatura
La mayoría de los trabajos de investigación sobre aprendizaje activo se publican en revistas y conferencias centradas en la inteligencia artificial en general (por ejemplo, Journal of Artificial Intelligence Research (JAIR), Inteligencia artificial, Inteligencia artificial aplicada (AAI) o conferencias AAAI).
A pesar de la relevancia mutua de los temas, el aprendizaje del modelo de acción generalmente no se aborda en la planificación de conferencias como ICAPS.
Referencias
Amir, Eyal; Chang, Allen (2008). «Aprendizaje de modelos de acción deterministas parcialmente observables». Revista de Investigación de Inteligencia Artificial. 33: 349-402. arXiv: 1401.3437. doi:.1613 / jair..
Čertický, Michal (2014). «Aprendizaje del modelo de acción en tiempo real con el algoritmo en línea 3SG». Inteligencia Artificial Aplicada. 28 (7): 690–711. doi : 10.1080 / 08839514.2014.927692.
Yang, Qiang; Kangheng, Wu; Yunfei, Jiang (2007). «Modelos de acción de aprendizaje a partir de ejemplos de planes utilizando MAX-SAT ponderado». Inteligencia Artificial. 171 (2–3): 107–143. doi : 10.1016 / j.artint..11.005.
Balduccini, Marcelo (2007). «Descripciones de acciones de aprendizaje con A-Prolog: Action Language C». Simposio de primavera de AAAI: Formalizaciones lógicas del razonamiento de sentido común : 13-18.
Fuentes
- Url: doi.org
- Url: www.aaai.org