Lecciones de AlphaZero para un control óptimo, predictivo del modelo y adaptativo - Tapa dura

Dimitri P. Bertsekas

 
9781886529175: Lecciones de AlphaZero para un control óptimo, predictivo del modelo y adaptativo

Esta edición ISBN ya no está disponible.

Sinopsis

El propósito de este libro es proponer y desarrollar un nuevo marco conceptual para la Programación Dinámica (DP) y el Aprendizaje por Refuerzo (RL). Este marco se centra en dos algoritmos, que están diseñados en gran medida independientemente entre sí y operan en sinergia a través del poderoso mecanismo del método de Newton. Los llamamos el entrenamiento fuera de línea y los algoritmos de juego en línea; los nombres se toman prestados de algunos de los principales éxitos de RL que involucran juegos. Los ejemplos principales son el reciente programa AlphaZero (2017) (que juega ajedrez), y el programa TD-Gammon estructurado de manera similar y anterior (década de 1990) (que juega backgammon). En estos contextos de juego, el algoritmo de entrenamiento fuera de línea es el método utilizado para enseñar al programa cómo evaluar posiciones y generar buenos movimientos en cualquier posición dada, mientras que el algoritmo de juego en línea es el método utilizado para jugar en tiempo real contra oponentes humanos o informáticos. Tanto AlphaZero como TD-Gammon fueron entrenados ampliamente fuera de línea utilizando redes neuronales y una versión aproximada del algoritmo DP fundamental de iteración de políticas. Sin embargo, el reproductor AlphaZero que se obtuvo fuera de línea no se utiliza directamente durante el juego en línea (es demasiado inexacto debido a errores de aproximación inherentes al entrenamiento de redes neuronales fuera de línea). En cambio, se utiliza un jugador en línea separado para seleccionar movimientos, basado en la minimización de la búsqueda anticipada de varios pasos y un evaluador de posición terminal que fue entrenado utilizando la experiencia con el jugador fuera de línea. El jugador en línea realiza una forma de mejora de políticas, que no se degrada por las aproximaciones de la red neuronal. Como resultado, mejora en gran medida el rendimiento del reproductor fuera de línea. Del mismo modo, TD-Gammon realiza en línea un paso de mejora de políticas utilizando la minimización de una o dos etapas de anticipación, que no se degrada por las aproximaciones de redes neuronales. Con este fin, utiliza un evaluador de posición de terminal entrenado en red neuronal fuera de línea, y lo que es más importante, también extiende su mirada en línea mediante el despliegue (simulación con el reproductor de anticipación de un paso que se basa en el evaluador de posición). Significativamente, la sinergia entre el entrenamiento fuera de línea y el juego en línea también subyace al Model Predictive Control (MPC), una metodología de diseño de sistemas de control importante que se ha desarrollado ampliamente desde la década de 1980. Esta sinergia se puede entender en términos de modelos abstractos de DP de horizonte infinito y construcciones geométricas simples, y ayuda a explicar los importantes problemas de estabilidad dentro del contexto MPC. Un beneficio adicional de la mejora de la política por aproximación en el espacio de valor, no observada en el contexto de los juegos (que tienen reglas y entorno estables), es que funciona bien con los parámetros cambiantes del problema y la replanificación en línea, similar al control adaptativo indirecto. Aquí la ecuación de Bellman se perturba debido a los cambios de parámetros, pero la aproximación en el espacio de valor todavía funciona como un paso de Newton. Un requisito esencial aquí es que un modelo de sistema se estime en línea a través de algún método de identificación, y se utilice durante el proceso de minimización de un paso o varios pasos. En esta monografía nuestro objetivo es proporcionar información (a menudo basada en la visualización), que explique los efectos beneficiosos de la toma de decisiones en línea además del entrenamiento fuera de línea. En el proceso, sacaremos las fuertes conexiones entre la visión de inteligencia artificial de RL y las vistas teóricas de control de MPC y control adaptativo. Además, demostraremos que además de MPC y control adaptativo, nuestro marco conceptual se puede integrar eficazmente con otras metodologías importantes como sistemas multiagente y control descentralizado, optimización discreta y bayesiana y algoritmos heurísticos para optimización discreta. Uno de nuestros principales objetivos es mostrar, a través de las ideas algorítmicas del método de Newton y los principios unificadores del DP abstracto, que la metodología AlphaZero/TD-Gammon de aproximación en el espacio de valores y el despliegue se aplica muy ampliamente a problemas de control óptimo deterministas y estocásticos. El método de Newton aquí se utiliza para la solución de la ecuación de Bellman, una ecuación de operador que se aplica universalmente dentro de DP con espacios de estado y control discretos y continuos, así como horizonte finito e infinito.

"Sinopsis" puede pertenecer a otra edición de este libro.