El Agente Rainbow en pocas palabras: de RL a la combinación de mejora de DQN


Abstract:

En este documento, nuestro objetivo es centrarnos en alguna noción básica sobre el Aprendizaje por Refuerzo particularmente el algoritmo Q-learning. Luego cruzaremos el marco de RL dentro de la tecnología Neural Network, ya que un entorno de estado fuerte como los videojuegos no se puede administrar dentro de una simple optimización de la tabla Q. Este proceso de acoplamiento les da nacimiento a la Deep-Q-Network (DQN) que son la primera etapa de la llamada" Inteligencia Artificial". Vamos a aprovechar el algoritmo Vanilla DQN como punto de referencia y presentaremos las mejoras DQN más famosas y las clasificaremos dentro de la mejora de pérdida de error TD o la mejora de arquitectura: Double Deep Q-Network, Dueling Network, Priority Experience Replay, RL distributional, Dueling Network, aprendizaje Multi-Step Q. Cómo podemos combinarlos genuinamente para superar todos los algoritmos de márgenes y nuestro benchmark Vanilla DQN, llamaremos a esta combinación inteligente de todas estas mejoras como el agente Rainbow. Analizaremos su rendimiento utilizando líneas de base y comprenderemos el peso efectivo de cada componente mediante el método de ablación. También se examinaría el establecimiento de la metodología de los hiperparámetros. Se daría un código y una aplicación para la mayoría de los métodos. Nuestro punto de partida es el artículo de Hessel, M., Modayil, J., Van Hasselt, H., Schaul, T., Ostrovski, G., Dabney, W., & Silver, D.(2018, April), del cual tomamos la iniciativa de enfatizar un poco este efecto de investigación ilustrando el uso extensivo del agente de Rainbow en la …

Año de publicación:

2022

Keywords:

    Fuente:

    googlegoogle

    Tipo de documento:

    Other

    Estado:

    Acceso abierto

    Áreas de conocimiento:

    • Aprendizaje automático
    • Algoritmo

    Áreas temáticas:

    • Métodos informáticos especiales