Lecciones de AlphaZero para un control �ptimo, predictivo del modelo y adaptativo - Tapa dura

Dimitri P. Bertsekas

9781886529175: Lecciones de AlphaZero para un control �ptimo, predictivo del modelo y adaptativo

Tapa dura

ISBN 10: 1886529175 ISBN 13: 9781886529175

Editorial: Athena Scientific, 2022

Esta edici�n ISBN ya no est� disponible.

El prop�sito de este libro es proponer y desarrollar un nuevo marco conceptual para la Programaci�n Din�mica (DP) y el Aprendizaje por Refuerzo (RL). Este marco se centra en dos algoritmos, que est�n dise�ados en gran medida independientemente entre s� y operan en sinergia a trav�s del poderoso mecanismo del m�todo de Newton. Los llamamos el entrenamiento fuera de l�nea y los algoritmos de juego en l�nea; los nombres se toman prestados de algunos de los principales �xitos de RL que involucran juegos. Los ejemplos principales son el reciente programa AlphaZero (2017) (que juega ajedrez), y el programa TD-Gammon estructurado de manera similar y anterior (d�cada de 1990) (que juega backgammon). En estos contextos de juego, el algoritmo de entrenamiento fuera de l�nea es el m�todo utilizado para ense�ar al programa c�mo evaluar posiciones y generar buenos movimientos en cualquier posici�n dada, mientras que el algoritmo de juego en l�nea es el m�todo utilizado para jugar en tiempo real contra oponentes humanos o inform�ticos. Tanto AlphaZero como TD-Gammon fueron entrenados ampliamente fuera de l�nea utilizando redes neuronales y una versi�n aproximada del algoritmo DP fundamental de iteraci�n de pol�ticas. Sin embargo, el reproductor AlphaZero que se obtuvo fuera de l�nea no se utiliza directamente durante el juego en l�nea (es demasiado inexacto debido a errores de aproximaci�n inherentes al entrenamiento de redes neuronales fuera de l�nea). En cambio, se utiliza un jugador en l�nea separado para seleccionar movimientos, basado en la minimizaci�n de la b�squeda anticipada de varios pasos y un evaluador de posici�n terminal que fue entrenado utilizando la experiencia con el jugador fuera de l�nea. El jugador en l�nea realiza una forma de mejora de pol�ticas, que no se degrada por las aproximaciones de la red neuronal. Como resultado, mejora en gran medida el rendimiento del reproductor fuera de l�nea. Del mismo modo, TD-Gammon realiza en l�nea un paso de mejora de pol�ticas utilizando la minimizaci�n de una o dos etapas de anticipaci�n, que no se degrada por las aproximaciones de redes neuronales. Con este fin, utiliza un evaluador de posici�n de terminal entrenado en red neuronal fuera de l�nea, y lo que es m�s importante, tambi�n extiende su mirada en l�nea mediante el despliegue (simulaci�n con el reproductor de anticipaci�n de un paso que se basa en el evaluador de posici�n). Significativamente, la sinergia entre el entrenamiento fuera de l�nea y el juego en l�nea tambi�n subyace al Model Predictive Control (MPC), una metodolog�a de dise�o de sistemas de control importante que se ha desarrollado ampliamente desde la d�cada de 1980. Esta sinergia se puede entender en t�rminos de modelos abstractos de DP de horizonte infinito y construcciones geom�tricas simples, y ayuda a explicar los importantes problemas de estabilidad dentro del contexto MPC. Un beneficio adicional de la mejora de la pol�tica por aproximaci�n en el espacio de valor, no observada en el contexto de los juegos (que tienen reglas y entorno estables), es que funciona bien con los par�metros cambiantes del problema y la replanificaci�n en l�nea, similar al control adaptativo indirecto. Aqu� la ecuaci�n de Bellman se perturba debido a los cambios de par�metros, pero la aproximaci�n en el espacio de valor todav�a funciona como un paso de Newton. Un requisito esencial aqu� es que un modelo de sistema se estime en l�nea a trav�s de alg�n m�todo de identificaci�n, y se utilice durante el proceso de minimizaci�n de un paso o varios pasos. En esta monograf�a nuestro objetivo es proporcionar informaci�n (a menudo basada en la visualizaci�n), que explique los efectos beneficiosos de la toma de decisiones en l�nea adem�s del entrenamiento fuera de l�nea. En el proceso, sacaremos las fuertes conexiones entre la visi�n de inteligencia artificial de RL y las vistas te�ricas de control de MPC y control adaptativo. Adem�s, demostraremos que adem�s de MPC y control adaptativo, nuestro marco conceptual se puede integrar eficazmente con otras metodolog�as importantes como sistemas multiagente y control descentralizado, optimizaci�n discreta y bayesiana y algoritmos heur�sticos para optimizaci�n discreta. Uno de nuestros principales objetivos es mostrar, a trav�s de las ideas algor�tmicas del m�todo de Newton y los principios unificadores del DP abstracto, que la metodolog�a AlphaZero/TD-Gammon de aproximaci�n en el espacio de valores y el despliegue se aplica muy ampliamente a problemas de control �ptimo deterministas y estoc�sticos. El m�todo de Newton aqu� se utiliza para la soluci�n de la ecuaci�n de Bellman, una ecuaci�n de operador que se aplica universalmente dentro de DP con espacios de estado y control discretos y continuos, as� como horizonte finito e infinito.

"Sinopsis" puede pertenecer a otra edici�n de este libro.

Editorial: Athena Scientific
A�o de publicaci�n: 2022
Idioma: Ingl�s
ISBN 10: 1886529175
ISBN 13: 9781886529175
Encuadernaci�n: Tapa dura
Contacto del fabricante: no disponible
Persona responsable: no disponible