Transformador de conmutación: escalado a más de un billón de parámetros

Los transformadores han causado un gran revuelo en el campo del aprendizaje automático, especialmente en el uso del procesamiento del lenguaje con modelos lingüísticos (y ahora el procesamiento de imágenes). Son uno de los temas más populares del momento y no es de extrañar que grandes empresas tecnológicas como Google, Microsoft o Facebook estén invirtiendo mucho en esta tecnología. En nuestro artículo del blog GPT-3 - El siguiente nivel de IA ya hemos informado sobre el parámetro 175 de OpenAI, GPT-3, cuya licencia se concedió en exclusiva a Microsoft. 

En enero, Google publicó un nuevo documento exhaustivo, "Transformadores de conmutación: escalado a modelos de billones de parámetros con una dispersión simple y eficiente". En él, el grupo propone un nuevo método para aumentar significativamente el rendimiento de los transformadores. Permite multiplicar el número de parámetros de un modelo, manteniendo al mismo tiempo el número de operaciones matemáticas (la métrica estándar de los costes computacionales de los ML).

Con el "Transformador-Conmutador" se establecen nuevos estándares. El modelo tiene 1,7 billones de parámetros y hace que el GPT-3 parezca de juguete.En este artículo informamos sobre las principales características de los transformadores de conmutación.

¿Qué es lo que "ha cambiado"?

En cierto modo, la arquitectura de un centro informático sirvió de modelo para la maqueta. Allí, los llamados conmutadores garantizan que los paquetes de datos entrantes sólo se reenvíen a los dispositivos a los que están destinados. Los demás componentes permanecen inalterados. La idea parece banal, pero en realidad aún no ha llegado al aprendizaje automático. Al entrenar una red neuronal, los datos de entrada se activan en todos los parámetros de todas las capas. 
 
Un conmutador-transformador funciona de forma muy similar. Los datos de entrada se propagan por el modelo, y éste activa sólo determinadas capas, pero no todas. El supuesto implícito es que no toda la información almacenada en el modelo es relevante para una entrada concreta."¿Y qué?", estará pensando ahora, "¿cuál es el problema?".La respuesta es muy sencilla, pero innovadora: el método desvincula los costes de cálculo del tamaño total del modelo.

frente de los interruptores
© Ted Sakshaug CC BY 2.0

Por ello, los pioneros de esta forma de tratamiento de datos dentro de una red neuronal han denominado a su modelo "Mezcla de Expertos" (MoE). Se refiere a una técnica de la aprendizaje automáticoen la que se utilizan varios expertos para dividir el espacio del problema en regiones homogéneas. Originalmente, la técnica se describió en el artículo: "Redes neuronales escandalosamente grandes: la capa de mezcla de expertos con control disperso" de 2017, mostrando una mejora significativa con respecto a los modelos estándar. 

El "router" de los transformadores de conmutación 

Para entender el principio con más detalle, ayuda observar un transformador estándar. El elemento clave es el llamado "mecanismo de atención". Una capa de atención reconoce qué datos de entrada -por ejemplo, qué palabras de una frase- son relevantes para la tarea que se está realizando. Un transformador convencional es una pila profunda de capas de atención ejecutadas en paralelo, las llamadas capas de atención multicabezal. 
  

Al final de cada una de estas capas en la arquitectura estándar hay un Red neuronal directa(FFN). Este FFN reensambla las salidas de los diferentes "cabezales".Y aquí es exactamente donde entra en juego el Transformador de Conmutación. Sustituye este módulo de agregación por varios FFN. Son los "expertos".Si ahora se envían datos a través del modelo, éste activa exactamente un experto por cada elemento de la entrada. Dicho de otro modo: Durante un paso hacia delante, un transformador de conmutación utiliza aproximadamente tantos parámetros como un transformador estándar con el mismo número de capas, aunque tiene muchos más parámetros que el transformador estándar. Además, están los parámetros de enrutamiento, pero éstos son insignificantes en términos de la potencia de cálculo necesaria.

El router de Switch-Transformer
© arXiv:2101.03961 | El Router de Switch-Transformador

Queda por explicar cómo se selecciona a los expertos. El proceso se basa en una sencilla secuencia de operaciones: 

  1. La representación numérica de las palabras individuales, xse realiza con una matriz de encaminamiento W (un parámetro aprendible que se entrena junto con el resto del modelo) para obtener una puntuación para cada experto: puntuaciones = x * W. El W denota una matriz de parámetros aprendibles que se entrenan junto con el resto del modelo. 
  1. Las puntuaciones se normalizan según una distribución de probabilidad, de modo que sumen 1 en todos los expertos: p = softmax(puntuaciones)
  1. x cuenta con el apoyo del experto i dirigida con la mayor probabilidad. Por último, la salida (es decir, la representación de tokens actualizada) es la activación generada por el experto, ponderada por su puntuación de probabilidad: x' = p * E (x)

¿Cuáles son las ventajas? 

Los investigadores de Google hacen una comparación con otro modelo, Text-To-Text-Transfer-Transformer (T5), para mostrar las ventajas de los Switch-Transformers. Un Switch-Transformer con un solo experto es igual que el T5. 

En primer lugar, muestran cómo con cada experto adicional el modelo mejora. Después de todo, dos cabezas (o expertos) son mejores que una. Experimentaron con mezclas de hasta 256 expertos y mostraron una mejora. Sin embargo, resulta que el efecto de los expertos adicionales se aplana al aumentar el número y acaba por estancarse. Una vez alcanzada la saturación, los expertos adicionales ya no tienen ningún efecto positivo.

 

Mejora el rendimiento con cada experto adicional.
© arXiv:2101.03961 | Mejora el rendimiento con cada experto adicional.

En un paso posterior, se comparó la velocidad de aprendizaje del Transformador de Conmutación con la del T5. Los investigadores demuestran que el modelo con MoE puede aprender entre dos y siete veces más rápido que su predecesor, es decir, puede lograr los mismos resultados con entre dos y siete veces menos datos.

Velocidad de aprendizaje de los Interruptores-Transformadores y T5
© arXiv:2101.03961 | Velocidad de aprendizaje de los conmutadores-transformadores y T5

Por último, pero no por ello menos importante, Switch Transformer también consigue mejoras en muchas pruebas de PNL, como la clasificación de textos y la respuesta a preguntas. Y lo que es más importante, hay una gran mejora en la prueba Winogrande, que mide la capacidad de razonamiento.

 

Comparación entre transformadores de conmutación y T5
© arXiv:2101.03961 | Comparación entre transformadores de conmutación y T5

Conclusión 

La mezcla de expertos demuestra ser un método fiable para permitir una enorme ampliación de los Transformadores. Los Transformadores de conmutación pueden formarse con mucho menos esfuerzo. Como resultado, establecen nuevos estándares no sólo para el tamaño de redes neuronalessino también para pruebas de PNL exigentes. La considerable reducción de los costes computacionales permite un mayor número de parámetros y, por tanto, ofrece posibilidades de mejora.  

Autor:inside

[EDITORIAL

Nuestro equipo editorial de AT está formado por varios empleados que preparan los correspondientes artículos del blog con el mayor esmero y según su leal saber y entender. Nuestros expertos de los respectivos campos le ofrecen regularmente contribuciones actuales del sector de la ciencia de datos y la IA. Esperamos que disfrute de la lectura.

0 comentarios