En los últimos años, la inteligencia artificial (IA) y especialmente el procesamiento del lenguaje natural (PLN) han experimentado una revolución impulsada por una arquitectura de red neuronal específica: el Transformer. Está omnipresente y se desarrolla y optimiza constantemente. Debido a su increíble popularidad, en la actualidad existe una gran variedad de transformadores diferentes que abordan distintos aspectos del modelo.
En esta serie de blogs queremos dar una visión general de los distintos transformadores.
Inhaltsverzeichnis
La atención es la máxima prioridad
En primer lugar, echemos un vistazo a las raíces de la innovadora arquitectura de red neuronal. En un artículo de 2017, un grupo de investigadores presentó un desafío al statu quo de la PNL, el Transformer. Criticaban el estado de la técnica en ese momento, en el que dominaban las redes neuronales recurrentes y convolucionales.
Los investigadores identificaron tres puntos críticos en las RNN y las CNN:
- la cantidad total de cálculos que tienen que realizar
- el bajo grado de paralelización de los cálculos
- la capacidad de modelizar conexiones de largo alcance entre los elementos de una secuencia (por ejemplo, las palabras de una frase).
El último punto es especialmente crítico. Si tomamos el ejemplo de las RNN, sabemos que el modelo procesa una frase o un documento palabra por palabra. Cuando la RNN ha procesado el último elemento, el flujo de información procede únicamente de los elementos inmediatamente anteriores. Al mismo tiempo, los datos del principio de la frase no llegan al final.
La figura siguiente muestra cómo el flujo de información se desplaza entre las palabras a medida que los transformadores procesan una frase. Se puede ver cómo flujos paralelos de información llegan a una palabra en cada paso de procesamiento, obteniendo información sobre todas las palabras del contexto. Este enfoque resuelve los tres problemas de las RNN.
La capa Transformer, visualizada en el siguiente diagrama, se convertirá en el componente central de muchas generaciones futuras de arquitecturas Transformer. La arquitectura tiene dos componentes principales:
- Codificador: en el lado izquierdo
- Decodificador: en el lado derecho
BERT
BERT (Bidirectional Encoder Representations from Transformers, representaciones codificadoras bidireccionales de transformadores) es uno de los primeros transformadores que ha logrado un gran avance tras su aplicación en el contexto del aprendizaje por transferencia. El aprendizaje por transferencia es un enfoque en el que una red neuronal se entrena primero en una tarea específica y luego se aplica a otra tarea. Este método permitió mejorar aún más la realización de la segunda tarea.
La innovación técnica más importante de BERT es la modelización del lenguaje enmascarado (MLM).
La técnica permite el entrenamiento bidireccional utilizando el mismo flujo de información que en el Transformer Encoder original. Como en su momento mostró el mejor rendimiento en una serie de pruebas comparativas, generó mucha atención entre los expertos en procesamiento del lenguaje natural.
En la siguiente ilustración puede ver un ejemplo de cómo se enmascara una de las palabras, w4. A continuación, el modelo tiene que adivinar ¿Cuál es el token real en el contexto dado? Para el entrenamiento de BERT sólo se sustituyen 15 % de las palabras de una secuencia, aleatoriamente con una de las siguientes opciones:
- 80 % se sustituyen por un token especial de máscara ("[MASK]") que indica al modelo que se ha "ocultado" una palabra.
- 10 % con una palabra al azar
- 10 % con la palabra original
Además, BERT está preentrenado con la predicción de la frase siguiente (NSP). Es comparable a MLM, pero a nivel de la frase completa. BERT recibe un par de frases y se le pide que prediga si la segunda frase pertenece o no al contexto de la primera. En el 50% de los casos, la segunda frase se sustituye por una frase aleatoria.
Combinando MLM y NSP, BERT puede aprender una representación bidireccional de toda la secuencia que ofrece los mejores resultados en las pruebas comparativas.
OpenAI GPT
GPT (transformador preentrenado generativamente) y sus sucesores, GPT-2 y GPT-3, son las arquitecturas de transformadores más populares junto con BERT. Los investigadores del OpenAI Institute las presentaron en un artículo más o menos al mismo tiempo que BERT. En él se presentaban resultados de referencia comparables a los de BERT.
A diferencia de BERT, GPT utiliza la parte decodificadora del transformador. Por lo tanto, está preentrenado mediante el modelado causal del lenguaje (CLM). GPT aprende a predecir cuál es la siguiente palabra en un contexto determinado. Este tipo de modelado del lenguaje produce un rendimiento degradado, pero podría utilizarse en tareas de clasificación, por ejemplo. Sin embargo, GPT destaca en la generación de textos de sonido muy natural que a menudo dan la impresión de haber sido escritos por un humano.
Por razones éticas y de seguridad, el equipo de investigación de OpenAI no liberó inicialmente recursos para reproducir su trabajo. La versión más reciente es GPT-3 con un total de 175.000 millones de parámetros - lea nuestra entrada de blog al respecto.
Conclusión
Hemos dado una visión general de los primeros transformadores, los hemos comparado con enfoques anteriores como las RNN y los hemos distinguido entre sí. En la próxima parte de nuestra serie, presentaremos la segunda oleada de transformadores, sus nuevas incorporaciones arquitectónicas y sus ventajas.
0 comentarios