¿Qué es Google GLaM (Generalist Language Model)?
El Modelo Generalista de Lenguaje (abreviado GLaM) se desarrolló como un Método eficaz para escalar modelos lingüísticos con un modelo de Mezcla de Expertos (MoE). presentado por Google. GLaM es un Modelo con billones de pesos que pueden ser entrenados y operados eficientemente a través de la sparsity, logrando al mismo tiempo un rendimiento competitivo en múltiples tareas de aprendizaje de "pocos disparos". Se evaluó frente a 29 puntos de referencia públicos para el procesamiento del lenguaje natural (Procesamiento del Lenguaje Natural (PLN)) evaluadas en siete categorías que van desde la compleción de textos hasta la respuesta a preguntas abiertas y tareas de inferencia en lenguaje natural.
Para desarrollar GLaM, Google creó un conjunto de datos de 1,6 billones de tokens que representaban una amplia gama de casos de uso para el modelo. A continuación, se creó un filtro para evaluar la calidad del contenido de las páginas web entrenando a GLaM con texto de fuentes reputadas como Wikipedia y libros. Este filtro se utilizó después para seleccionar un subconjunto de páginas web, que se combinaron con contenidos de libros y Wikipedia para producir el modelo final. Conjunto de datos de entrenamiento para crear.
Funciones y capacidades
El modelo ME consta de varios submodelos, a saberi cada submodelo o experto se especializa en distintas entradas es. La red de gating controla los expertos de cada capa y selecciona los dos expertos más adecuados para procesar los datos de cada token. La versión completa de GLaM tiene 1,2T de parámetros totales para 64 expertos por capa MoE con un total de 32 capas MoE, pero sólo activa una subred de 97B parámetros por predicción de token durante la inferencia.
Google GLaM permite Diferentes expertos activados en diferentes tipos de insumos que es una colección de E x (E-1) varios Combinaciones de redes feedforward para cada capa MoE, lo que se traduce en una mayor flexibilidad computacional. La representación final aprendida de un token es la combinación ponderada de los resultados de los dos expertos. Para permitir la ampliación a modelos más grandes, cada experto de la arquitectura GLaM puede abarcar varias unidades de cálculo.
GLaM se evaluó utilizando una configuración de disparo cero y de disparo único en la que las tareas nunca se ven durante el entrenamiento. Obtuvo resultados competitivos en 29 pruebas de PNL públicas, desde tareas de cloze y compleción hasta respuesta a preguntas abiertas, tareas de tipo Winograd, razonamiento de sentido común, comprensión de lectura en contexto, tareas SuperGLUE e inferencia en lenguaje natural. El sitio El rendimiento de GLaM es comparable al de un modelo lingüístico denso, como GPT-3 (175B), con una eficiencia de aprendizaje significativamente mejorada en las 29 pruebas de PNL públicas. GLaM se reduce a un algoritmo fundamentalmente denso, on Transformador cuando cada capa MoE tiene un solo experto. Se investigaron el rendimiento y las propiedades de escalado de GLaM y se compararon con modelos densos de referencia entrenados con los mismos conjuntos de datos.