Transformer-XL, XLNet, XLM y CTRL

En la primera parte de nuestra serie de blogs presentamos algunos de los primeros Transformers y ofrecimos una visión general de qué es exactamente lo que los hace tan potentes. En esta parte, presentamos la siguiente oleada de arquitecturas basadas en transformadores, como Transformer-XL, XLNet, XLM y CTRL. Estas arquitecturas superan a sus predecesoras en muchos aspectos y ofrecen un rendimiento aún mayor en tareas de PLN.

Transformer-XL1

Empecemos por el Transformer-XL. Fue presentado en 2019 por investigadores de la Universidad Carnegie Mellon y Google AI. Aunque alaban cómo los Transformers pueden capturar dependencias a largo plazo, los investigadores critican que estos modelos solo pueden hacerlo en un contexto limitado. Para BERT y GPT hay un límite de 512 o 1024 fichas.  

Las dos contribuciones abordan precisamente este problema. La primera solución consiste en utilizar un mecanismo de recursividad a nivel de segmento que garantice el flujo de información entre palabras dentro de un segmento, como se muestra en la figura animada siguiente.

Sin embargo, aplicar el planteamiento a un transformador estándar no funcionaría fácilmente. Esto se debe a que estos utilizan incrustaciones de posición fija, es decir, utilizan números enteros (0, 1, 2, etc.) para representar la posición de cada palabra.

Si dividiera una secuencia más larga en segmentos, obtendría incrustaciones posicionales repetitivas (0, 1, 2, 3, 0, 1, 2, 3, etc.) que confundirían a la red. En su lugar, Transformer-XL utiliza la Codificación Posicional Relativa. Utiliza la distancia relativa (por ejemplo, 2 o 3 palabras) entre cada par de palabras para codificar mejor su relación en el contexto general. 

Transformer-XL permite procesar secuencias de texto mucho más largas. BERT, por ejemplo, sólo puede trabajar con 512 tokens, lo que es comparable a un tuit. Con Transformer-XL, en teoría es posible trabajar con documentos infinitamente largos.

Recurrencia a nivel de segmento en Transfomer-XL
Recurrencia a nivel de segmento en Transfomer-XL [Blog de Google AI]

XLNet2

El grupo de investigación que introdujo Transformer-XL también ha creado una extensión de éste, XLNet. Con ella, abordan algunos otros puntos críticos de BERT. La primera es la "suposición de independencia" que hace el BERT con respecto a las fichas ocultas que debe predecir.

El objetivo de BERT de modelizar el lenguaje oculto impide que el modelo aprenda cómo se relacionan entre sí las palabras predichas. En segundo lugar, hay "ruido de entrada" debido a la forma en que los tokens se ocultan durante el entrenamiento mediante la palabra "[MASK]". Nunca aparece como entrada del modelo cuando se aplica a un problema objetivo. 

Para resolver los problemas anteriores, XLNet introduce las dos técnicas siguientes. En primer lugar, los investigadores introdujeron un nuevo objetivo de modelización del lenguaje denominado Modelización del Lenguaje por Permutación. Se trata de una extensión del modelado causal del lenguaje (CLM) estándar.

PLM toma todas las posibles secuencias de factorización (permutaciones) de palabras dentro de una frase y entrena el modelo en las distintas secuencias con las mismas palabras. Así aprende a manejar mejor el flujo bidireccional de información entre las palabras de una frase.  

La segunda innovación es una ampliación de la arquitectura del mecanismo de autoatención del Transformer mediante la adición de un segundo flujo de autoatención. El primero y original, llamado flujo de contenido, se centra en el contenido de las palabras. El nuevo, el flujo de consulta, en cambio, trabaja sólo con la información de posición del token predicho. Sin embargo, no sabe de qué palabra se trata. 

XLNet introduce técnicas que le ayudan a trabajar con varios Tareas de PNL ofrecen en general mejores resultados que GPT-2 o BERT. Sin embargo, esto es a costa de parámetros adicionales y costes computacionales.

Twa-Stream Attention para la representación consciente del objetivo
Atención en dos flujos para la representación consciente del objetivo © Papel XLNet

XLM3

Hasta ahora, todas las arquitecturas de transformadores analizadas se han considerado en el contexto del inglés. Un equipo de investigadores de Facebook está estudiando escenarios multilingües. Están investigando los objetivos de formación ya habituales MLM y CLM en un entorno multilingüe.

El trabajo pone a prueba los dos objetivos de entrenamiento en traducción automática y clasificación interlingüística, demostrando su éxito. Además, demuestran que los transformadores preentrenados en datos multilingües también pueden realizar tareas en lenguas de escasos recursos.  

Por último, como parte de XLM, los investigadores introducen un nuevo objetivo de formación, Translation Language Modelling (TLM). Se trata de una extensión de MLM. Una frase y su traducción a otro idioma se concatenan en una secuencia. A continuación, las palabras se enmascaran aleatoriamente, como en la modelización de lenguas enmascaradas, y el modelo tiene que predecirlas. Como las palabras de ambas lenguas están enmascaradas, el modelo puede aprender representaciones de las palabras de ambas lenguas. 

La principal ventaja de XLM es que el modelo puede funcionar mejor en contextos multilingües. BERT también tiene una versión multilingüe. Sin embargo, XLM puede ofrecer resultados más precisos en escenarios en los que se mezclan idiomas.

Ejemplo de modelización del lenguaje de traducción con una frase en inglés y francés
Ejemplo de Modelización del Lenguaje de Traducción con una frase en inglés y francés © Papel XLM

CTRL4

Un equipo de investigación de Salesforce ha publicado un nuevo modelo de lenguaje que permite generar voz de forma controlada. Su trabajo introduce el Modelo de Lenguaje de Transformación Condicional (CTRL), que utiliza códigos de control especiales para regular el texto generado según diversos criterios. 

Los modelos de generación de lenguaje causal como GPT sólo se entrenan para una tarea específica, lo que los limita enormemente para otras tareas. Normalmente, el modelo está condicionado a la petición de texto inicial y genera una nueva secuencia basada en ella.

CTRL aborda este problema proponiendo el concepto de códigos de control proporcionados junto con la indicación. Según los investigadores, la idea procede de modelos generativos utilizados en el campo de la visión por ordenador. 

La mayoría de los códigos de control permiten controlar determinadas características del texto especificando un dominio. En el siguiente extracto vemos dos ejemplos en los que se utilizan dos códigos de control diferentes, "horror" y "reseñas", con la misma indicación, "cuchillo". Se producen dos ejemplos de discurso muy diferentes. El primero suena como una historia de terror. El segundo se parece más a una reseña que podrías ver en una tienda online. 

CTRL brilla por su capacidad de controlar la generación de texto basándose únicamente en un prefijo. Esto permite entrenar un solo modelo para resolver múltiples problemas. En cambio, si tomamos como ejemplo GPT-2, hay que entrenar instancias distintas de la red para cada tarea a resolver.

Ejemplos generados con CTRL
Ejemplos generados con CTRL © CTRL papel

Conclusión

En esta parte de la serie, hemos dado una visión general de muchas adiciones que se han hecho a la arquitectura Transformer para mejorar sus capacidades generales.  

Explicamos cómo utilizarlo con Transformer-XL para secuencias aún más largas. XLNet demostró cómo el modelo puede aprender representaciones bidireccionales con las taks de modelado permutacional del lenguaje.

XLM mostró cómo utilizar transformadores en escenarios (por ejemplo, traducción automática, clasificación interlingüística, etc.) que implican varios idiomas. Por último, gracias a CTRL, sabemos cómo reutilizar transformadores a través de códigos de control en múltiples escenarios sin tener que volver a entrenarlos.  

Sin embargo, este no es el final de la serie. En la próxima parte, hablaremos de optimizaciones relacionadas con la huella computacional de los transformadores.

Autor:inside

[EDITORIAL

Nuestro equipo editorial de AT está formado por varios empleados que preparan los correspondientes artículos del blog con el mayor esmero y según su leal saber y entender. Nuestros expertos de los respectivos campos le ofrecen regularmente contribuciones actuales del sector de la ciencia de datos y la IA. Esperamos que disfrute de la lectura.

0 comentarios

Enviar un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *