Aprendizaje por refuerzo - Algoritmos en el cerebro 

Introducción

Por regla general, los artículos de nuestro blog se publican en Casos de uso empresarial y el análisis de datos empresariales. Pero en este artículo nos gustaría adoptar un enfoque diferente. Analizamos cómo los métodos que utilizamos para resolver problemas empresariales nos han aportado conocimientos sobre el campo de la neurociencia y el funcionamiento de los cerebros biológicos a lo largo del último siglo. Los campos de investigación de la inteligencia artificial y biológica se han desarrollado en paralelo y se han influido mutuamente. Aquí nos centraremos en el aprendizaje por refuerzo (RL), un magnífico ejemplo de cómo la investigación sobre el funcionamiento de los sistemas biológicos, por un lado, y la investigación en estadística e informática, por otro, pueden cruzarse para desarrollar nuevos conocimientos.

La RL es originalmente una teoría sobre el aprendizaje conocida en psicología desde hace mucho tiempo. La idea subyacente: las acciones que se refuerzan con recompensas tienen más probabilidades de repetirse, mientras que las acciones que no conducen a recompensas o incluso castigos se hacen menos frecuentes (Figura 1). Sutton y Barto formalizaron la base matemática de este "aprendizaje por refuerzo" y fundaron así una nueva rama de investigación en inteligencia artificial (Sutton, R. S., y Barto, A. G. (1999).Reinforcement learning: An introduction. MIT press), que constituye la base de todos los sofisticados algoritmos que hoy baten a los campeones mundiales de ajedrez y Go. Los neurocientíficos, a su vez, utilizan estas formulaciones matemáticas para estudiar distintas regiones cerebrales e identificar las partes de nuestro cerebro responsables del aprendizaje basado en recompensas. Décadas de investigación sugieren que la RL, tal como la formalizaron Sutton, Barto y sus colegas, puede ser uno de los mecanismos centrales por los que aprenden los humanos y otros animales.

Figura 1 Los primeros experimentos de Edward Thorndike ("Ley del Efecto") y B.F. Skinner ("Condicionamiento Operante") demostraron que los animales repiten las acciones recompensadas y evitan las no recompensadas o castigadas: el principio clave del aprendizaje por refuerzo. En este "Caja Skinner", una paloma aprende a pulsar el botón correcto en respuesta a un determinado estímulo (imagen) para recibir una recompensa (comida).

Aprendizaje por refuerzo: explicado de forma compacta, Tech Deep Dive, Alexander Thamm GmbH

Para una introducción compacta a la definición y terminología del aprendizaje por refuerzo, lea nuestro artículo básico sobre la metodología:

Aprendizaje por refuerzo: explicado de forma compacta

Aprendizaje por refuerzo en algoritmos y cerebros biológicos

El concepto básico del aprendizaje por refuerzo es mejorar el comportamiento mediante el aprendizaje por "ensayo y error". En este caso, los agentes aprenden el llamado "valor" V(t) de un estado (o par estado-acción) en un momento dado t, que indica al agente cuánta recompensa debe esperar para las distintas opciones (por ejemplo, cuánto me gustaría si pidiera helado de chocolate o de vainilla). El truco está en aprender este valor de forma iterativa (acabo de pedir helado de chocolate, ¿cuánto me ha gustado?). Para entenderlo, podemos fijarnos en la formulación matemática de una de las ecuaciones más importantes de la RL: el aprendizaje iterativo de la ecuación "Función de valor" V(t):

V(t+1) = V(t) + α ⋅ (Recompensa-V(t))

Esta ecuación supone que el valor del siguiente paso temporal V(t+1), que refleja formalmente la expectativa de recompensas futuras (¿cuánto placer espero si elijo helado de chocolate ahora?), se forma actualizando la expectativa de valor actual V(t) por la diferencia entre la recompensa recibida y la expectativa actual de cuál debería ser la recompensa (Recompensa-V(t)). Esta diferencia suele denominarse Recompensa Error de predicción (RPE). La fuerza de la actualización basada en el RPE viene determinada por un llamado Tasa de aprendizaje (𝛼, alfa). 𝛼 determina esencialmente en qué medida la recompensa recibida modifica la expectativa de recompensas futuras. Encontrará una descripción más detallada en artículo de nuestro blog sobre terminología básica de RL.

Para establecer la conexión entre la VR y el cerebro, tenemos que dar un pequeño rodeo por la anatomía. El cerebro humano se divide en neocórtex y áreas subcorticales (Figura 2). El neocórtex es una zona grande y plegada en la parte exterior del cerebro y es la estructura en la que se suele pensar cuando se habla del cerebro en su conjunto. Consta de varias zonas diferentes, denominadas según su posición en relación con el cráneo humano. El lóbulo frontal es especialmente importante para nosotros. córtex prefrontal que forma la parte frontal del cerebro. Entre otras muchas funciones importantes, como el lenguaje y el control ejecutivo, se cree que desempeña un papel crucial en la representación de variables importantes de la VR, como el valor que damos a los objetos y otras recompensas. Las áreas subcorticales, por su parte, están situadas en las profundidades del cerebro. El área más importante que nos gustaría destacar aquí es un conjunto de estructuras neuronales denominado Ganglios basales. Estas estructuras desempeñan un papel importante en el control del movimiento, la toma de decisiones y el aprendizaje de recompensas. Otro concepto importante es la noción de Neurotransmisor.

Los neurotransmisores controlan la comunicación entre las distintas partes del cerebro (más concretamente: la comunicación entre sus subunidades, las sinapsis entre neuronas individuales). Hay distintos tipos de neurotransmisores que se cree que controlan diferentes procesos neuronales. El neurotransmisor más importante que controla la interacción de las regiones de los ganglios basales y el córtex prefrontal es Dopaminaque también se considera el neurotransmisor más importante para la LR en el cerebro.

Figura 2 Partes importantes del circuito de recompensa son el núcleo accumbens en los ganglios basales (subcórtex) y el córtex prefrontal en el lóbulo frontal. Estas regiones están fuertemente influenciadas por el neurotransmisor dopamina, que se origina en el área tegmental ventral, detrás de los ganglios basales. Fuente: https://openbooks.lib.msu.edu/neuroscience/chapter/motivation-and-reward/ .

En el cerebro, la dopamina desempeña muchas funciones, pero aquí queremos centrarnos en su papel en el aprendizaje de recompensas (Figura 3A). ¿Cómo funciona? Contrariamente a lo que se piensa, la liberación de dopamina no es una señal de placer o recompensa. propiamente dichosino una forma de codificar la diferencia entre la recompensa esperada y la real, es decir, nuestro Error de Predicción de Recompensa definido anteriormente. En otras palabras, el cerebro libera una gran cantidad de dopamina en respuesta a una recompensa inesperada/sorprendente, y la liberación de dopamina se amortigua cuando no se produce la recompensa esperada. En cambio, una recompensa totalmente esperada no altera el patrón de disparo dopaminérgico. El descubrimiento de la estrecha conexión entre los patrones de disparo dopaminérgicos y los EPR es uno de los hallazgos neurocientíficos más significativos de las últimas décadas (Schultz, Dayan y Montague, Ciencia 1997).

Marco de aprendizaje por refuerzo y ejemplo de aplicación, Brijesh Modasara, Alexander Thamm GmbH

Para una introducción técnica en profundidad al aprendizaje por refuerzo que le ofrezca una comprensión básica del aprendizaje por refuerzo (RL) mediante un ejemplo práctico, consulte nuestra entrada de blog:

Aprendizaje por refuerzo - Marco y ejemplo de aplicación

Impacto de los algoritmos de RL en la neurociencia y más allá

Desde su descubrimiento, se ha trabajado mucho en el desarrollo de experimentos para descubrir la dinámica del aprendizaje por refuerzo en humanos y otros animales. Los experimentos de RL en neurociencia tienden a ser un poco diferentes de lo que hacen los científicos de datos con Modelos de RL en casos de uso empresarial hacer. En Ciencia de Datos, creamos una simulación ("gemelo digital") en la que un agente aprende a optimizar una tarea específica, como controlar los semáforos o minimizar los costes energéticos. Los agentes aprenden a realizar acciones óptimas para maximizar las recompensas. De este modo, esperamos crear un agente que pueda realizar y resolver la tarea de forma autónoma optimizando su comportamiento para obtener las mejores recompensas posibles. En cambio, los investigadores en neurociencia piden a los participantes (biológicos) que resuelvan tareas específicas de aprendizaje y analizan cómo afectan distintas manipulaciones a su comportamiento de aprendizaje (por refuerzo). Para ello, se entrenan agentes de aprendizaje por refuerzo que imiten el comportamiento observado en los participantes reales del experimento. A partir de estos agentes entrenados, los investigadores pueden describir el comportamiento en términos matemáticos comparando las acciones de los participantes con las acciones de los agentes de RL entrenados.

Un ejemplo muy sencillo de este tipo de experimento es el Tarea de bandido (Figura 3B). En esta tarea, los participantes tienen que optimizar sus acciones eligiendo el mejor depredador posible. Cada acción tiene una cierta probabilidad de recibir una determinada recompensa. Las probabilidades no se comunican a los participantes, sino que deben aprenderlas por experiencia probando las distintas opciones y observando los resultados. A menudo, la probabilidad de recibir una determinada recompensa por cada acción (= elección de una determinada opción) cambia en el transcurso del experimento. Esto da lugar a un entorno dinámico en el que los participantes tienen que hacer un seguimiento del estado actual de cada acción. Utilizando la formulación RL anterior y optimizando el parámetro α para cada participante, podemos estimar la eficacia con la que cada participante actualiza su expectativa de recompensa y cómo afecta esto a su comportamiento.

Figura 3 A Los resultados muestran que la dopamina codifica un error de predicción de recompensa (EPR) (Schultz, Dayan & Montague, Ciencia 1997). Cuando se produce una recompensa inesperada, las neuronas dopaminérgicas se disparan cuando llega la recompensa (izquierda). Sin embargo, si la recompensa se predice mediante un estímulo, las neuronas dopaminérgicas se activan cuando se predice la recompensa, pero no cuando ésta se produce (centro). Si se predice la recompensa, pero no se produce, las neuronas dopaminérgicas reducen su actividad (derecha).
Figura 3 B Las tareas de bandido son un campo de pruebas clásico para los algoritmos de aprendizaje por refuerzo, en el que los agentes deben aprender a realizar las mejores acciones (es decir, elegir el mejor bandido) basándose en el método de ensayo y error, similar a la elección de la mejor máquina tragaperras (cifras de https://en.wikipedia.org/wiki/Multi-armed_bandit y https://towardsdatascience.com/solving-the-multi-armed-bandit-problem-b72de40db97c)

Los estudios que utilizan este diseño y otros similares han arrojado una serie de resultados de importancia clínica. Estos hallazgos pueden ayudar a mejorar el diagnóstico y tender puentes hacia nuevos tratamientos de los trastornos mentales, al identificar los mecanismos que subyacen a los comportamientos clínicamente anormales. Por ejemplo, se ha sugerido que trastornos clínicos como la depresión pueden estar relacionados con diferencias en el aprendizaje de la retroalimentación positiva y negativa (Chong Chen, ... & Ichiro Kusumi, Neuroscience and Biobehavioral Reviews 2015.; Reinen, ..., & Schneier, Neuropsicofarmacología europea 2021). Imagina que no sólo tienes una tasa de aprendizaje (α en el ejemplo anterior), sino dos, una para aprender de la retroalimentación positiva y otra para la retroalimentación negativa. ¿Qué ocurre si no son iguales, sino que tu tasa de aprendizaje "positiva" es menor que la "negativa"? Esto te lleva a actualizar tu conocimiento del mundo mucho más sobre la base de la retroalimentación negativa, lo que da lugar a una representación negativamente sesgada de tu entorno. Un segundo ejemplo se refiere a la representación de los propios valores. En el aprendizaje por refuerzo, no sólo es importante aprender de la experiencia, sino también representar con precisión los valores de las propias opciones (V(t) en el ejemplo anterior).

Este ha sido otro foco importante de la investigación sobre las diferencias individuales y los síntomas clínicos. Esta sensibilidad individual a las diferencias de valor determina hasta qué punto te importa realmente si una opción es mejor que otra. Supongamos que ha aprendido que le gustan mucho los plátanos y bastante menos las manzanas. Si estas diferencias de preferencias son muy importantes para usted, siempre elegirá los plátanos e ignorará las manzanas. Si es menos sensible a sus preferencias, elegirá ambas frutas más o menos con la misma frecuencia. Lo que parece un ejemplo artificial es un aspecto central de la forma en que los agentes artificiales y biológicos se abren camino en el mundo: Si no son lo bastante sensibles a lo que consideran bueno o malo en el mundo, se comportarán de forma demasiado arbitraria, pero si son demasiado sensibles a sus preferencias, se ceñirán siempre a una opción y no podrán explorar otras alternativas ni detectar cambios en el mundo, como una mejora repentina de la calidad de las manzanas (véase la descripción de los bandidos cambiantes más arriba).

Este problema es el núcleo del llamado equilibrio exploración-explotación, que está en el corazón del aprendizaje por refuerzo: Cuánto deben confiar los agentes en sus conocimientos para elegir la mejor opción (explotar) y cuánto deben probar nuevas opciones para aprender más sobre el mundo cambiante (explorar). No le sorprenderá saber que tanto el aprendizaje individual como la resolución del equilibrio entre exploración y explotación están asociados a la función dopaminérgica (Chakroun, ..., & Peters, 2020 eLife; Cremer, ..., Schwabe, Neuropsicofarmacología 2022), que también es un tema importante de la neurociencia clínica (Foley, Psiquiatría y estudios psiquiátricos preclínicos 2019; Iglesias, ..., & Stephan, WIREs Cognitive Science 2016.).

Descubra cómo se mejoran los grandes modelos lingüísticos como ChatGPT mediante el uso del Aprendizaje por Refuerzo a partir de la Retroalimentación Humana (RLHF).

Aprendizaje por refuerzo a partir de comentarios humanos en el campo de los grandes modelos lingüísticos

Conexiones actuales entre IA y neurociencia

El flujo bidireccional de información entre la inteligencia artificial y la investigación neurocientífica sigue siendo fructífero (Hassabis, ..., & Botvinick, Neuron 2017; Botvinick, ..., & Kurth-Nelson, Neuron 2020.). Por ejemplo, se ha demostrado que la idea de almacenar y "reexperimentar" la experiencia en un búfer de repetición para aumentar los datos de entrenamiento de RL de un agente puede mejorar significativamente la eficiencia de los algoritmos de aprendizaje por refuerzo en IA (Schaul, ..., & Silver, arXiv 2015; Sutton, Actas sobre aprendizaje automático 1990). Trabajos recientes también han demostrado que estos algoritmos tienen un parecido sorprendente con la repetición neuronal que se encuentra en el hipocampo, una región cerebral central para la formación de la memoria y la navegación en el cerebro biológico (Roscow, ..., Lepora, Tendencias en Neurociencias 2021; Ambrose, ... Foster, Neuron 2016).

También se está investigando mucho la naturaleza exacta de la señal de aprendizaje que se encuentra en las neuronas dopaminérgicas. La firma clave, un desplazamiento gradual de las señales de aprendizaje hacia atrás en el tiempo, ha sido respaldada en trabajos recientes tanto Amo, ..., Uchida, Nature Neuroscience 2022), así como cuestionado (Jefong, ..., Namboodiri, Ciencia 2022; "Un modelo de aprendizaje animal (y humano) que lleva décadas en entredicho", Economist 2023). Estos conocimientos biológicos son cruciales para el desarrollo de algoritmos eficientes en recursos para el aprendizaje por refuerzo en inteligencia artificial.

Otro interesante trabajo sugiere que las señales dopaminérgicas de aprendizaje pueden no reflejar la actualización de números individuales, sino el aprendizaje de toda la distribución de posibles recompensas y sus respectivas probabilidades (Bakermans, Muller, Behrens, Current Biology 2020, Dabney, Kurth-Nelson, ..., Botvinick, Naturaleza 2020). Esto tiene importantes implicaciones tanto biológicas como algorítmicas. Algorítmicamente, esto significa que el aprendizaje por refuerzo se aproxima no sólo al valor esperado de una recompensa, sino a toda su distribución, lo que proporciona una representación mucho más rica del entorno y, por tanto, acelera enormemente el aprendizaje y el control de las acciones. Biológicamente, un animal al borde de la inanición necesita saber dónde encontrar suficiente comida para sobrevivir, aunque esta opción sea menos probable que una alternativa más segura que no le proporcione suficiente alimento. Éste y otros trabajos similares aportan importantes conocimientos sobre la naturaleza de los algoritmos de aprendizaje por refuerzo, eficientes en el uso de recursos pero potentes, y, por tanto, sobre la naturaleza de la propia inteligencia artificial y biológica.

Aprendizaje por refuerzo - Casos prácticos para empresas, Dr. Philipp Schwartenbeck, Alexander Thamm GmbH

Lea sobre el uso del aprendizaje por refuerzo en la industria y otros sectores relevantes en nuestro artículo técnico:

Aprendizaje por refuerzo - Casos prácticos para empresas

Conclusión

En resumen, el flujo de conocimientos entre la neurociencia y los planteamientos teóricos de la RL a lo largo del último siglo ha aportado conocimientos esenciales sobre los principios de la inteligencia biológica y artificial. El aprendizaje por refuerzo es un aspecto clave de las aplicaciones modernas de la inteligencia artificial, que van desde resolver desafiantes problemas de control a la historia de éxito Grandes modelos lingüísticos rica, pero fuertemente arraigada en la ciencia biológica. El desarrollo de algoritmos cada vez más potentes está dando lugar a nuevos conocimientos sobre la forma en que nuestros cerebros entienden el mundo, y los conocimientos sobre inteligencia biológica están dando lugar a algoritmos más eficientes e influyentes para el aprendizaje por refuerzo en un contexto empresarial.

Autor:inside

Dr. Philipp Schwartenbeck

Philipp es científico de datos principal y se incorporó a [at] en enero de 2023. Entre otras cosas, trabaja en el aprendizaje por refuerzo, por el que se interesó durante su anterior trabajo como neurocientífico computacional. Cuando no está analizando datos o pensando en algoritmos de aprendizaje por refuerzo, le interesan varios temas, desde la inferencia bayesiana hasta la competición en torneos de Schafkopf.

Dr. Luca Bruder

El Dr. Luca Bruder es científico de datos sénior en Alexander Thamm GmbH desde 2021. Luca completó su doctorado en el campo de la neurociencia computacional y pudo adquirir experiencia en consultoría de IA y ciencia de datos junto con su doctorado. Puede recurrir a una amplia experiencia en los campos de la estadística, el análisis de datos y la inteligencia artificial, y dirige un gran proyecto sobre el tema de la IA explicable y la conducción autónoma en Alexander Thamm GmbH. Además, Luca es autor de varias publicaciones en el campo de la modelización y la neurociencia.

0 comentarios