¿Qué es Google PaLM (Pathways Language Model)?
El Pathways Language Model (abreviado PaLM) de Google es un potente modelo lingüísticodesarrollado para comprender y generar el habla. PaLM es un modelo transformador de decodificador denso entrenado con el sistema Pathways. Es un Modelo de 540.000 millones de parámetrosentrenado en múltiples vainas TPU v4, por lo que es extremadamente eficiente.
PaLM se entrenó con una combinación de conjuntos de datos en inglés y multilingües, incluidos documentos web, libros, Wikipedia, conversaciones y código de GitHub. El vocabulario también se adaptó para conservar todos los espacios, dividir en bytes los caracteres Unicode no incluidos en el vocabulario y dividir los números en tokens individuales, lo que permitió un entrenamiento eficaz.
Google PaLM es un hito importante en el camino hacia la realización de la visión de Google Research para Pathways: una única Modeloque pueda generalizarse a todos los ámbitos y tareas y que, al mismo tiempo, sea muy eficaz.
Funciones y capacidades
PaLM logró avances impresionantes en diversas tareas de lenguaje, razonamiento y código. En la evaluación de 29 tareas de procesamiento del lenguaje natural en inglés (Procesamiento del Lenguaje Natural (PLN)), PaLM superó a muchos modelos anteriores en 28 de las 29 tareas. Además, obtuvo buenos resultados en pruebas de PNL multilingüe, incluida la traducción, a pesar de que solo 22% del corpus de entrenamiento no es inglés.
Además, Google PaLM mostró un rendimiento impresionante en varias tareas de BIG Bench. Capacidad de comprensión y producción de lenguaje natural. Por ejemplo, el modelo fue capaz de distinguir causa y efecto, comprender combinaciones conceptuales en contextos adecuados e incluso adivinar la película a partir de un emoji.
PaLM también tiene varios Habilidades rompedoras en tareas de código. Puede generar código de alta calidad (texto a código) que puede ejecutarse directamente, entender explicaciones de código en lenguaje natural y proporcionar completado de código y corrección de errores (código a código). PaLM ha demostrado que también es capaz de generar código para tareas como la clasificación, la búsqueda y el web scraping. PaLM puede resolver todas estas tareas, aunque sólo incluye 5 % de código en su conjunto de datos de preentrenamiento.
Cabe destacar la capacidad de rendimiento en situaciones de pocos disparos, que es comparable a la del modelo Codex 12B, aunque con 50 veces menos de potencia. Código Python se entrenó. Este resultado corrobora conclusiones anteriores según las cuales los modelos de mayor tamaño pueden ser más eficaces a la hora de, Aprendizaje por transferencia tanto de datos de lenguajes de programación como de lenguaje natural, mejorando así su eficacia de muestreo en comparación con modelos más pequeños.
La eficiencia de entrenamiento de PaLM es impresionante, con una utilización de FLOPs de hardware de 57,8 %, la más alta lograda hasta ahora para LLMs de este tamaño. Esto se debe a una combinación de la estrategia de paralelismo y una reformulación del Bloques transformadores debido al cómputo paralelo de atención y Capas de avance es posible. Esto permite aumentar la velocidad gracias a las optimizaciones del compilador de TPU.