Los últimos modelos de aprendizaje automático, como los utilizados en ChatGPT, han causado sensación por sus sorprendentes resultados. En general, los grandes modelos lingüísticos (LLM) tienen un impacto cada vez mayor en el trabajo diario y se utilizan en diversos campos de actividad. La mejora de los resultados en términos de calidad de las respuestas es, además del Modelo Transformador introducido en 2017 (fuente: Atención es todo lo que necesitas) puede atribuirse en particular al uso del Aprendizaje por Refuerzo a partir de la Retroalimentación Humana (RLHF). Así pues, este artículo trata del RLHF en el ámbito de los grandes modelos lingüísticos. Esta técnica se utiliza aquí para mejorar el ajuste fino de grandes modelos lingüísticos. El trasfondo matemático de los procesos de entrenamiento del aprendizaje por refuerzo se omite deliberadamente en este punto, ya que esta información puede encontrarse en detalle en nuestro artículo "Marco de refuerzo y ejemplos de aplicación".
Inhaltsverzeichnis
Grandes modelos lingüísticos (LLM)Introducción
Los LLM no son nuevos y se utilizan en una gran variedad de aplicaciones desde hace bastante tiempo. Sistemas de asistencia del habla como Alexa y Siri hacen uso de ellos, las entradas de búsqueda en Google se procesan con ellos y, como muy tarde desde ChatGPT, su uso habitual se ha generalizado en la sociedad. Pero, ¿qué hay detrás de los modelos de habla a gran escala y por qué están recibiendo tanta atención ahora, cuando llevan mucho tiempo utilizándose?
Los LLM son grandes redes neuronales entrenadas para comprender y generar el habla humana (por ejemplo, GPT-4, LaMDA, LLaMA, etc.). Estos modelos pueden utilizarse para diversas aplicaciones, como el reconocimiento del habla, la traducción, el resumen y los chatbots, lo que facilita la vida en muchos ámbitos laborales, pero también privados.
Para que los LLM desarrollen una "comprensión lingüística", es necesario entrenarlos con una gran cantidad de contenidos textuales. Normalmente, estos datos textuales se recopilan mediante el llamado scraping de contenidos de Internet. El scraping consiste en que un programa automatizado visite un gran número de páginas web y extraiga todo el texto. Durante la fase de entrenamiento, los modelos lingüísticos aprenden a reconocer las relaciones contextuales dentro de los datos textuales y las plasman en un modelo probabilístico complejo. En pocas palabras, durante la fase de entrenamiento, los modelos lingüísticos aprenden a predecir qué palabra de una secuencia es más probable que venga a continuación:
Visualización del proceso de formación
Iteración 2:
Iteración 3
Sin embargo, el entrenamiento en contenidos de Internet no filtrados y sin control del resultado textual conlleva el riesgo de que el modelo aprenda a reproducir información falsa (fake news), contenidos malintencionados o prejuicios (biases). Para reducir el riesgo de que los modelos lingüísticos adopten estos contenidos negativos y los reproduzcan al generar la salida textual, se utilizan diversos procedimientos durante el proceso de entrenamiento. Por un lado, se aplican pasos de preprocesamiento para filtrar pasajes indeseables del contenido del texto sobre la base de reglas y, por otro, se entrenan modelos adicionales de aprendizaje automático con la ayuda de comentarios humanos, que en combinación con el modelo lingüístico pretenden minimizar el riesgo de producir contenido malicioso. Además, este proceso de formación en varias fases ofrece la posibilidad de ajustar mejor los resultados del modelo lingüístico a las instrucciones e intenciones de la entrada humana. Un componente central de este proceso de formación es el denominado "Aprendizaje por refuerzo a partir de la información humana" (Reinforcement Learning from Human Feedback, RLHF), que se analiza con más detalle en la sección siguiente.
Para una introducción técnica en profundidad al aprendizaje por refuerzo que le ofrezca una comprensión básica del aprendizaje por refuerzo (RL) mediante un ejemplo práctico, consulte nuestra entrada de blog:
Aprendizaje por refuerzo a partir de la retroalimentación humana (RLHF)
Para controlar mejor el proceso de formación y el resultado de los grandes modelos lingüísticos, en muchos casos se utiliza el aprendizaje por refuerzo a partir de la retroalimentación humana durante el proceso de formación. En este caso, además del aprendizaje automatizado de patrones lingüísticos basados en datos de texto, se incluye la retroalimentación humana en el proceso de aprendizaje. La idea que subyace al RLHF es que un ser humano proporcione información al modelo lingüístico indicándole si lo que el modelo ha generado coincide con la instrucción o la intención que hay detrás de la entrada y si no contiene ningún contenido no deseado. Con la ayuda de este feedback, el modelo lingüístico puede mejorar continuamente el resultado durante el proceso de aprendizaje.
El proceso técnico del Aprendizaje por Refuerzo a partir de la Retroalimentación Humana consta de un total de tres bloques de construcción:
1. Ajuste supervisado
El primer paso es el ajuste supervisado, en el que se utiliza la técnica del aprendizaje automático supervisado para optimizar el modelo. El aprendizaje automático supervisado es un enfoque en el campo del aprendizaje automático en el que un algoritmo aprende de un conjunto de datos de entrenamiento para hacer predicciones o tomar decisiones para datos nuevos y desconocidos.
En el paso de Ajuste Supervisado del Aprendizaje por Refuerzo a partir de la Retroalimentación Humana, la entrada consiste en un texto seleccionado aleatoriamente, por ejemplo "¿Qué es el Aprendizaje por Refuerzo a partir de la Retroalimentación Humana? El modelo lingüístico genera una salida basada en esta entrada, por ejemplo, "El aprendizaje por refuerzo a partir de la retroalimentación humana es un subconjunto del aprendizaje automático". Al mismo tiempo, una persona humana escribe una respuesta "óptima" (etiqueta) a la misma entrada, es decir, una respuesta que la persona humana habría querido para la entrada dada. A continuación, se comparan la respuesta generada por el modelo y la respuesta generada por el ser humano, y la diferencia (el error) se utiliza para ajustar los parámetros del modelo. El ajuste de los parámetros del modelo se hace automáticamente mediante retropropagación, con lo que el modelo aprende a generar respuestas que se parecen mucho a las respuestas humanas "óptimas".
Una vez que se ha alcanzado la concordancia deseada entre las respuestas generadas por el ser humano y las generadas por el modelo, o se ha minimizado el error entre la entrada y la salida, el modelo supervisado y ajustado se utiliza para entrenar el llamado modelo de recompensa.
2. entrenamiento de un modelo de recompensa
En el segundo paso del aprendizaje por refuerzo a partir de los comentarios humanos, se entrena el llamado modelo de recompensa. Al igual que en el perfeccionamiento supervisado, los comentarios humanos se utilizan para optimizar aún más el texto de salida. Para ello, se selecciona una entrada de texto (nueva) y se pasa al modelo lingüístico optimizado en el paso 1. A continuación, se genera una serie de salidas que se ajustan al modelo de recompensa. A continuación, se genera una serie de resultados que difieren entre sí hasta cierto punto, lo que se denomina conjunto de candidatos. Al igual que en el paso 1, este conjunto de candidatos es evaluado o clasificado por humanos. Al mismo tiempo, se crea una nueva red neuronal, el "modelo de recompensa", con el objetivo de calcular una puntuación de clasificación para cada una de las salidas de texto candidatas que se acerque lo más posible a la evaluación humana.
El entrenamiento del modelo de recompensa se realiza minimizando cada vez más la diferencia entre la puntuación de la clasificación del modelo de recompensa y la clasificación humana.
Al final de la fase de entrenamiento, el modelo de recompensa ha aprendido a evaluar las respuestas generadas por el modelo lingüístico y a asignar una puntuación de clasificación. En este caso, el feedback humano sirve para que el modelo de recompensa aprenda a aproximarse a la utilidad de las respuestas para los humanos.
3. entrenamiento del agente de aprendizaje por refuerzo con optimización de política proximal (PPO)
El modelo de recompensa del paso 2 genera una clasificación a partir de un conjunto de respuestas generadas por el modelo lingüístico optimizado del paso 1. Ahora bien, podría suponerse que la respuesta con la clasificación más alta se emitirá como respuesta final al usuario final, pero esto es una falacia, ya que una selección tan estática podría dar lugar a los siguientes problemas en la práctica:
- Falta de exploración: En el aprendizaje por refuerzo (RL), es importante equilibrar tanto la exploración de nuevas estrategias como la explotación de estrategias conocidas y buenas. Limitarse a seleccionar la respuesta con la clasificación más alta puede hacer que el agente se quede atascado en una solución subóptima sin posibilidad de encontrar soluciones mejores o innovadoras. Los algoritmos de RL permiten cierta exploración para descubrir nuevas estrategias y optimizar aún más el rendimiento del agente (véase el artículo sobre terminología de RL).
- Incertidumbre del modelo de recompensa: El modelo de recompensa puede ser impreciso o incompleto, sobre todo si se basa en información humana, que puede ser subjetiva e incoherente. Al utilizar un enfoque de RL como PPO, el agente no sólo puede aprender basándose en la estimación de recompensa actual, sino también considerar cómo debe ajustarse su política (véase el artículo sobre terminología de RL) a lo largo del tiempo para tener en cuenta las posibles incertidumbres en las estimaciones de recompensa.
- Entornos estocásticos: En muchas situaciones del mundo real, los entornos en los que opera el agente son estocásticos e impredecibles. En tales casos, la simple selección de la respuesta de mayor rango puede conducir a resultados menos que óptimos. Un enfoque de RL como la PPO puede ayudar al agente a responder mejor a las incertidumbres del entorno y adaptar su estrategia en consecuencia.
- Optimización a largo plazo: El objetivo del aprendizaje por refuerzo es maximizar la recompensa acumulada a lo largo del tiempo, no sólo tener en cuenta la recompensa inmediata. Seleccionar simplemente la respuesta mejor valorada se centra en la recompensa inmediata y puede ignorar los efectos a largo plazo y las estrategias óptimas. En otras palabras, la optimización a largo plazo tiene en cuenta las respuestas que aportan más valor al usuario a lo largo del diálogo con, por ejemplo, ChatGPT. Los enfoques de RL, como PPO, pretenden tener en cuenta la toma de decisiones a largo plazo y las estrategias óptimas para mejorar el rendimiento general del agente en el diálogo.
- Aprender y adaptarse: En muchos casos, el entorno o el problema cambian con el tiempo. Por ejemplo, cuando se utiliza ChatGPT, se suministran nuevos hechos al modelo como contexto adicional durante la conversación, o el usuario:in desea cambiar el tono de la salida de texto. Al utilizar un enfoque de RL, el agente puede aprender de su experiencia y adaptar su estrategia a nuevas situaciones. La simple selección de la respuesta mejor valorada puede no proporcionar esa capacidad de adaptación y aprendizaje.
Para una introducción compacta a la definición y terminología del aprendizaje por refuerzo, lea nuestro artículo básico sobre la metodología:
Por lo tanto, tras el entrenamiento del modelo de recompensa, se lleva a cabo un tercer paso de entrenamiento en el aprendizaje por refuerzo a partir del feedback humano, en el que un agente de aprendizaje por refuerzo aprende a tomar la mejor decisión posible en cada situación (conversacional) con la ayuda de la optimización de la política proximal (PPO). Este paso pretende minimizar los problemas mencionados anteriormente. La optimización proximal de políticas (PPO) es un método moderno en el campo del aprendizaje por refuerzo que pretende mejorar la estabilidad del entrenamiento y el rendimiento de los enfoques de gradiente de políticas. La PPO optimiza la llamada política o plan de acción del agente para maximizar la recompensa acumulada esperada. La PPO ha demostrado su eficacia en muchas tareas de RL y es conocida por su solidez y buen rendimiento en una amplia gama de aplicaciones. Encontrará información detallada sobre el funcionamiento de los agentes de RL en el artículo enlazado aquí: Terminología RL.
La conexión entre el modelo de Recompensa y el modelo PPO en el Aprendizaje por Refuerzo a partir de la Retroalimentación Humana es que el modelo de Recompensa se utiliza para proporcionar retroalimentación al agente sobre la calidad de sus acciones, mientras que el algoritmo PPO utiliza esta retroalimentación para actualizar eficientemente la política del agente. El objetivo principal de esta colaboración es conseguir que el agente tome decisiones similares a las humanas (aproximadas por el modelo de recompensa) al resolver tareas complejas o actuar en entornos en los que la solución óptima no está fácilmente disponible. Combinando la retroalimentación humana con algoritmos de RL eficaces como PPO, el agente puede beneficiarse de la experiencia humana y ampliar sus capacidades de aprendizaje para abordar problemas más difíciles y adaptarse mejor a diferentes situaciones.
Cabe señalar que el tipo de aprendizaje por refuerzo a partir de la retroalimentación humana descrito aquí es una de las varias formas de integrar el RLFH en el entrenamiento de modelos. Por ejemplo, también es posible utilizar el propio LLM como agente de aprendizaje por refuerzo y mejorar así las respuestas no sólo seleccionando entre n candidatos, sino generando directamente los LLM aprendiendo de las recompensas.
En general, utilizar un enfoque de aprendizaje por refuerzo con OPP en lugar de limitarse a seleccionar la respuesta con la clasificación más alta del modelo de recompensa puede ayudar al agente a responder mejor a las incertidumbres, los cambios del entorno y los efectos a largo plazo, y permite una mejor exploración y adaptación a nuevas situaciones. Aunque la simple selección de la respuesta mejor clasificada puede ser suficiente en algunos escenarios, los métodos de aprendizaje por refuerzo suelen ofrecer una solución más flexible y potente para problemas complejos y entornos dinámicos.
Profundice en el concepto de la "tríada mortal" en el aprendizaje por refuerzo, sus implicaciones y enfoques. Esta inmersión profunda le ofrece una visión general de los conceptos de RL, la introducción de la "tríada mortal" y sus estrategias de afrontamiento.
Conclusión
El aprendizaje por refuerzo a partir de la retroalimentación humana es un planteamiento que, por un lado, minimiza el riesgo de desinformación y, al mismo tiempo, aumenta la calidad de las respuestas de los modelos lingüísticos a gran escala al influir en el proceso de formación con la retroalimentación humana. Combinando el conocimiento humano y algoritmos de RL eficaces como el PPO, los agentes pueden dominar tareas complejas y alcanzar o incluso superar un rendimiento similar al humano.
El uso de la retroalimentación humana en el modelo de recompensa permite al agente beneficiarse de la intuición y la experiencia de personas reales, al tiempo que garantiza la capacidad del agente para adaptarse y aprender mediante el aprendizaje por refuerzo. Este planteamiento contribuye a mejorar la exploración y explotación de estrategias, la adaptación a las incertidumbres del entorno y la consideración de los efectos a largo plazo, lo que redunda en un mejor rendimiento general.
En general, el aprendizaje por refuerzo a partir de la retroalimentación humana ofrece una vía para seguir desarrollando la inteligencia artificial y aplicarla a una amplia gama de aplicaciones y retos. Este enfoque abre nuevas vías de colaboración entre humanos y máquinas y permite ampliar los límites de la IA y desarrollar soluciones innovadoras a problemas complejos.
0 comentarios