Aprendizaje por refuerzo - La tríada mortal

Introducción

En los artículos anteriores, presentamos los fundamentos del aprendizaje por refuerzo (RL) y exploramos sus diversas aplicaciones en los negocios. Para profundizar en el funcionamiento interno de los algoritmos de aprendizaje por refuerzo, es importante entender el concepto crítico de la Tríada Mortal (DT) en el aprendizaje por refuerzo. Comprender los entresijos de la Tríada Mortal es fundamental para cualquiera que desee dominar los algoritmos de aprendizaje por refuerzo y desarrollar sistemas de IA robustos y fiables. En este artículo, aprenderemos qué es la Tríada Mortal, qué impacto tiene en los sistemas de RL y cómo superarla.

Este artículo se divide en tres secciones. La primera sección ofrece una breve visión general de conceptos necesarios del aprendizaje por refuerzo (aprendizaje por refuerzo profundo y sobreestimación de los valores Q) que contribuyen a una mejor comprensión del concepto de la Tríada Mortal. En la segunda sección, se introduce el concepto básico de Tríada Mortal y se explica cómo afecta al entrenamiento de los algoritmos de aprendizaje por refuerzo. Y, por último, en la tercera sección se analiza cómo puede abordarse el problema de la Tríada Mortal en el desarrollo de sistemas de IA robustos basados en RL.

Aprendizaje por refuerzo avanzado: visión general

Introducción al aprendizaje profundo por refuerzo

Nuestra Terminología del aprendizaje por refuerzo explica el aprendizaje por refuerzo utilizando un ejemplo muy sencillo en el que los espacios de estados y acciones son lo suficientemente pequeños como para crear una tabla Q para el agente de aprendizaje por refuerzo. Para casos de uso complejos en empresas, como los en este artículo del blog explicado, hay un número muy grande de estados y acciones. Crear una gran tabla para almacenar los valores Q es, por tanto, ineficiente desde el punto de vista computacional y requiere mucha memoria. Por lo tanto, utilizamos aproximadores de funciones como las redes neuronales para aproximar los valores Q. Por lo tanto, nos referimos a estas redes neuronales como redes Q profundas. El uso de redes neuronales en RL tiene varias ventajas:

  1. Pueden actualizarse de forma mucho más eficaz que una tabla Q.
  2. Pueden generalizarse mejor a nuevos estados y acciones que el agente aún no haya visto.
  3. Pueden utilizarse para resolver problemas con espacios de estados y acciones continuos.

Para entrenar la red Deep Q, recopilamos cientos de transiciones (estado, acción, recompensa, siguiente estado, terminación) y seleccionamos un pequeño conjunto de ellas cada pocas iteraciones para entrenar la red neuronal. Cuando actualizamos la red neuronal, también actualizamos la estrategia (asignación estado-acción) utilizada por el agente.

Aprendizaje por refuerzo: explicado de forma compacta, Tech Deep Dive, Alexander Thamm GmbH

Para una introducción compacta a la definición y terminología del aprendizaje por refuerzo, lea nuestro artículo básico sobre la metodología:

Aprendizaje por refuerzo: explicado de forma compacta

Sobreestimación de los valores Q

Cuando el agente comienza a aprender en el aprendizaje por diferencia temporal (TD), la precisión de los valores Q depende de las acciones que haya probado y de los estados vecinos que haya explorado. Además, al principio del entrenamiento, el agente no tiene suficiente información sobre la mejor acción en un estado determinado. Por lo tanto, al principio no hay garantía de que la mejor acción para la transición al siguiente estado sea la acción con el valor Q más alto. Así que una acción con un valor Q máximo (que es ruidoso) puede ser subóptima. Si el agente no ha explorado suficientemente el entorno, los valores Q de las acciones subóptimas pueden ser superiores a los valores Q de las acciones óptimas. Esto es lo que se entiende por sobrestimar los valores Q.Puede llevar al agente a tomar malas decisiones y a recibir menos recompensas acumuladas.  

 Entendamos ahora qué es exactamente la Tríada Mortal, cómo afecta al proceso de aprendizaje de los agentes de RL y cómo se pueden mitigar sus efectos negativos.

Marco de aprendizaje por refuerzo y ejemplo de aplicación, Brijesh Modasara, Alexander Thamm GmbH

Para una introducción técnica en profundidad al aprendizaje por refuerzo que le ofrezca una comprensión básica del aprendizaje por refuerzo (RL) mediante un ejemplo práctico, consulte nuestra entrada de blog:

Aprendizaje por refuerzo - Marco y ejemplo de aplicación

¿Qué es la tríada mortal?

En su libro Reinforcement Learning: An Introduction, Sutton y Barto acuñaron el término Tríada Mortal para describir tres propiedades del aprendizaje por refuerzo que pueden plantear importantes obstáculos al aprendizaje estable y eficiente de estrategias óptimas. Estas propiedades son el bootstrapping, el aprendizaje fuera de política y la aproximación de funciones. Juntas, estas tres propiedades configuran el panorama en el que operan los algoritmos de aprendizaje por refuerzo. Comprender la interacción entre estas propiedades es fundamental para desarrollar sistemas de RL robustos y fiables, especialmente en escenarios en los que retos complejos del mundo real requieren estrategias de decisión sofisticadas.

Comprendamos cada una de estas características y sus implicaciones:

Bootstrapping es un método para utilizar las estimaciones de valor de un estado para actualizar las estimaciones de valor de otros estados. Este enfoque se utiliza a menudo en algoritmos de aprendizaje por refuerzo para difundir conocimientos y mejorar la precisión de las funciones de valor o las estimaciones de políticas. Bootstrapping desempeña un papel importante en el proceso de aprendizaje, ya que permite a un agente utilizar sus conocimientos existentes para refinar su comprensión del entorno.

En la forma más sencilla de aprendizaje TD, el aprendizaje TD(0), la recompensa inmediata se suma al valor descontado del estado posterior (ecuación de Bellman). A continuación, se utiliza como valor objetivo para actualizar el valor del estado actual.

Q(st ,at) = R(st, at) + γ * max(at+1)[Q(st+1, at+1)], donde

  • Q es el valor q
  • R la recompensa es
  • st, y unt son el estado y la acción en el momento t
  • γ es el factor de descuento Gamma

Aunque este método puede acelerar el proceso de aprendizaje, también puede dar lugar a sesgos que lleven a sobreestimar o subestimar el valor real de una acción, como se explica en la sección anterior. Estos sesgos pueden transferirse a otros pares estado-acción y afectar así a todo el proceso de aprendizaje. Por lo tanto, es importante evitar la sobreestimación de los valores Q y la propagación de los sesgos.

Aproximadores de funcionesEn los sistemas complejos de aprendizaje por refuerzo, las redes neuronales se utilizan sobre todo como aproximadores de funciones, ya que permiten trabajar con espacios de estados más amplios. En algunos casos de uso, como la conducción autónoma, también desempeñan un papel clave en el procesamiento de las imágenes de entrada para generar las representaciones de estado correctas. El uso de redes neuronales ofrece numerosas ventajas, como se ha mencionado en la sección anterior, pero al mismo tiempo conduce a la no linealidad y a errores de aproximación. Esto puede afectar a la estabilidad y la convergencia del proceso de aprendizaje. Por lo tanto, es importante controlar cómo se actualiza la red neuronal y qué impacto tiene esto en las estimaciones de los valores.

En Fuera de la política-El aprendizaje es el aprendizaje a partir de datos generados por una estrategia (=política) distinta de la actual. Una de estas técnicas es la repetición de experiencias. La repetición de experiencias es un término de RL que se refiere a un pequeño subconjunto de transiciones utilizadas para entrenar una red Q. Si tomamos una muestra de transiciones, no todas serán generadas por la misma estrategia. Si tomamos una muestra de transiciones, no todas serán generadas por la misma versión de la red neuronal (o estrategia). Así, la red neuronal se actualiza en función de distintas estrategias. Se trata de una técnica muy potente, ya que mejora la capacidad de generalización del agente y aprende de estrategias subóptimas para desarrollar una estrategia óptima. Aunque estas transiciones son muy útiles para el aprendizaje, están alineadas con la estrategia que se utilizó para generar estas experiencias. A veces, las transiciones más antiguas pueden estar reñidas con la estrategia actual del agente. Esto puede afectar a la convergencia y la estabilidad del proceso de aprendizaje.

Veamos qué ocurre cuando se combinan estas tres. Cuando utilizamos la aproximación de funciones, básicamente estimamos los valores de acción de los estados. Cuando combinamos bootstrapping con redes neuronales, utilizamos la estimación del valor de un estado para actualizar la estimación del valor de otro estado, propagando así también los errores de aproximación. Dado que estamos utilizando una red neuronal, estamos actualizando los parámetros de toda la red neuronal, por lo que inadvertidamente también hemos afectado a las estimaciones de valor de todos los demás estados. Si ahora combinamos ambas cosas con el aprendizaje fuera de política, es decir, utilizamos transiciones de otras estrategias más antiguas, también podemos introducir una gran diferencia entre la estrategia actual y la utilizada para generar las transiciones. Por lo tanto, ahora hemos incluido errores de aproximación de estrategias más antiguas para el bootstrapping. Juntos amplifican los efectos negativos de cada uno, provocando inestabilidad, sobreestimación de las funciones de valor y, finalmente, divergencia de la curva de aprendizaje de los agentes RL. Veamos ahora cómo podemos mitigar estos efectos.

En nuestra inmersión profunda, destacamos las interacciones entre los métodos empresariales, la neurociencia y el aprendizaje por refuerzo en inteligencia artificial y biológica.

Aprendizaje por refuerzo - Algoritmos en el cerebro

¿Cómo se enfrenta a la Tríada Mortal?

Superar los retos que plantea la Tríada Mortal en el aprendizaje por refuerzo (RL) requiere una combinación de un cuidadoso diseño de algoritmos, técnicas de regularización y estrategias para mitigar las interacciones negativas entre la aproximación de funciones, el bootstrapping y el aprendizaje fuera de política. Los investigadores del RL han estudiado varios componentes algorítmicos que contribuyen a la divergencia del proceso de aprendizaje. He aquí algunos de los principales enfoques para abordar la tríada mortal:

  1. Técnicas de regularizaciónLas técnicas de regularización pueden ayudar a controlar la complejidad de los modelos aprendidos y reducir el impacto de los errores de aproximación de funciones. Técnicas como la pérdida de peso, el abandono y la normalización por lotes pueden estabilizar el proceso de entrenamiento de las redes neuronales y reducir el sobreajuste que puede contribuir a estimaciones de valores inexactas.
  2. Capacidad y tamaño: Si todos los valores se almacenan independientemente, no hay divergencia. Si un aproximador de funciones (una red neuronal) es lo suficientemente grande (redes neuronales más amplias y profundas), puede comportarse de forma similar a un caso tabular. Los experimentos han demostrado que los que obtienen mejores resultados utilizan las arquitecturas de red más grandes.
  3. Redes objetivoEsta hipótesis sugiere que hay menos divergencia cuando el bootstrapping se realiza en redes separadas, es decir, cuando se utiliza otra red (red objetivo) para estimar el valor del objetivo TD(0). Este desacoplamiento de las redes objetivo y de actualización puede reducir los problemas de propagación de errores.
  4. SobreestimaciónDoble aprendizaje Q profundo: se utiliza para desacoplar la selección de acciones y la evaluación de acciones, reduciendo la sobreestimación.En conjunción con la hipótesis anterior, esto reducirá aún más la divergencia.
  5. Establecimiento de prioridades:La priorización asigna un valor de prioridad a cada experiencia en el búfer de reproducción, indicando su importancia relativa. Durante el proceso de muestreo, las experiencias de mayor prioridad tienen más probabilidades de ser seleccionadas para el entrenamiento del agente de RL.Para compensar el sesgo introducido por el muestreo priorizado (ya que las experiencias de mayor prioridad se muestrean con más frecuencia), se utilizan ponderaciones de importancia durante el proceso de entrenamiento. Estas ponderaciones ayudan a corregir el desequilibrio y garantizan la estabilidad del proceso de aprendizaje.
  6. Varios pasosCuando se hace bootstrapping inmediatamente después de un solo paso, la contracción de la actualización de aprendizaje es proporcional a gamma, γ. Cuando se hace bootstrapping después de dos pasos, la contracción esperada es γ^2. Cuando se hace bootstrapping después de dos pasos, la contracción esperada es γ^2. Por lo tanto, la divergencia puede disminuir cuando se utilizan actualizaciones de varios pasos, incluso cuando se utilizan redes neuronales. Los experimentos han demostrado que la inestabilidad disminuye al aumentar el número de pasos.
  7. Estrategias de exploraciónEstrategias de exploración apropiadas: las estrategias de exploración apropiadas, como epsilon-greedy o UCB, pueden ayudar al agente a adquirir experiencia diversa. Esto es especialmente importante cuando se utiliza el aprendizaje fuera de política, ya que el agente necesita explorar diferentes situaciones para asegurarse de que sus datos son representativos. Estas estrategias garantizan que el agente intente priorizar las experiencias valiosas y gratificantes a lo largo del tiempo.
Aprendizaje por refuerzo - Casos prácticos para empresas, Dr. Philipp Schwartenbeck, Alexander Thamm GmbH

Lea sobre el uso del aprendizaje por refuerzo en la industria y otros sectores relevantes en nuestro artículo técnico:

Aprendizaje por refuerzo - Casos prácticos para empresas

Conclusión

En el aprendizaje por refuerzo, el concepto de la Tríada Mortal -la convergencia de la aproximación de funciones, el bootstrapping y el aprendizaje fuera de política- arroja luz sobre un nodo complejo en el proceso de toma de decisiones óptimas. La interacción de estos tres factores puede amplificar los retos para los algoritmos de aprendizaje por refuerzo, provocando inestabilidad, sobreestimación y resultados de aprendizaje subóptimos. Comprendiendo la dinámica, diseñando cuidadosamente los algoritmos y entendiendo a fondo estas interacciones, podemos desarrollar sistemas de RL estables y potentes para situaciones complejas del mundo real.

Fuente:  https://arxiv.org/pdf/1812.02648.pdf 

Autor:inside

Brijesh Modasara

Brijesh se incorporó a [en] en mayo de 2022 como científico de datos sénior. Es experto en el campo del aprendizaje por refuerzo y la minería de datos. Le gusta mantener conversaciones interesantes sobre aplicaciones innovadoras de la IA y el aprendizaje por refuerzo en particular. Cuando no está revolucionando el mundo de la tecnología, lo encontrarás capturando momentos impresionantes a través de su objetivo, combinando su amor por los viajes y la fotografía.

0 comentarios