GPT-3: el siguiente nivel de IA

de | 17 marzo 2021 | Conceptos básicos

Desde la publicación de la beta de GPT-3 en junio de 2020, ha habido numerosos informes sobre el nuevo modelo lingüístico. Pero, ¿cómo funciona exactamente GPT-3, qué ventajas tiene en la práctica y qué distingue al modelo lingüístico de los desarrollos anteriores? En este artículo aprenderá cómo funciona GPT-3 y dónde residen sus ventajas.

¿Qué es exactamente la GPT-3?

Al igual que sus predecesores que existen desde hace varios años, GPT-3 hace una predicción para las próximas palabrasque tienen muchas probabilidades de seguir. Esto permite escribir textos enteros y contenidos precisos con valor añadido, sin interacción humana. El contenido del robot es a menudo indistinguible del que sale de una pluma humana. Puede leer un texto de muestra en theguardian.com vista.

GPT-3 fue desarrollado por la organización Open AI, que en el año Fundada en 2015 por el empresario Elon Musk y se constituyó inicialmente como empresa sin ánimo de lucro. Junto con universidades e instituciones de todo el mundo, el equipo lleva a cabo investigaciones en el campo de la Inteligencia artificial y pone los resultados de la investigación a disposición del público para su aplicación. En este punto, la organización Open AI se ha fijado el objetivo de crear a largo plazo una inteligencia artificial general y similar a la humana. El modelo lingüístico GPT-3 no es el único proyecto de la organización.

Proyectos como Open AI Gym, que es un método estandarizado para comparar múltiples algoritmos, también forman parte del enfoque investigador de la organización. Lo mismo ocurre con el generador de música Jukebox. Esta red neuronal es capaz de generar música a partir de numerosos géneros y estilos y, de este modo, crear su propia música. Pero, ¿cómo se relacionan exactamente todos estos avances con GPT-3?

La evolución hacia el modelo GPT-3

GPT-1 puso en marcha el primer modelo de una serie de proyectos sobre la aplicación de la IA para  Procesamiento del lenguaje natural. Previamente, el objetivo de este desarrollo era crear un entorno supervisado de aprendizaje que permitiera reconocer los estados de ánimo dentro de los textos. Para ello se utilizaban determinadas señales en el texto, que a su vez dependían de entradas de datos específicas. Pero los objetivos evolucionaron aún más.

En 2018, los principales investigadores del equipo desarrollaron un nuevo modelo que funciona independientemente de las tareas específicas. El entrenamiento se basa en textos no específicos, que luego se entrenaron individualmente para cada tarea específica. El resultado de los continuos desarrollos fue posteriormente GPT-1, destinado a mejorar la comprensión lingüística general mediante un entrenamiento concreto. Todo ello sin una multitud de elaboradas tareas de muestra.

Desde junio de 2020 está disponible la tercera versión, GPT-3. La diferencia, sin embargo, es que, a diferencia de los dos modelos anteriores, la nueva versión no se puso a disposición de forma gratuita para seguir investigando. La IA Abierta cambió el modelo de negocio y garantizó que el acceso esté ahora sujeto a una cuota y actualmente limitado a unos pocos usuarios. Oficialmente, por tanto, sigue siendo una beta, pero las funciones ya tienen un alcance mayor que en cualquier versión anterior.

Incluso en comparación con otras aplicaciones de PNL, GPT-3 convence por su enorme variedad de funciones y nuevas soluciones. A diferencia de BERTT5 o su predecesor directo GPT-2, el modelo ha ganado considerablemente en tamaño. Se entrena con textos con un tamaño comprimido de hasta 570 GB. El ordenador alemán de alto rendimiento SuperMUC-NG seguiría necesitando más de 100 días de tiempo de cálculo para entrenar el modelo.

¿Cómo funciona la GPT-3?

GPT-3 es un modelo lingüístico. En concreto, es una herramienta estadística que puede utilizarse para predecir palabras en términos concretos. Sin embargo, las dificultades de tal solución residen en los distintos niveles del lenguaje. Cada lengua se basa en varios niveles de significado, variantes lingüísticas, construcciones gramaticales y recursos estilísticos que los autores distribuyen individualmente.

La dificultad de utilizar cierto vocabulario es también un grave problema de muchos modelos lingüísticos disponibles hasta ahora en el mercado. Básicamente, cada palabra debe convertirse en una determinada secuencia de números. El ordenador sólo conoce los números, por lo que prácticamente debe disponer de antemano de una traducción para el propio sistema. Se necesita mucha memoria para crear este enlace, lo que limita el uso de los sistemas.

No obstante, los modelos lingüísticos modernos tienen potencial. Especialmente para grandes empresas como Google, la cumplimentación automática de contenidos conlleva una notable simplificación para vigilar los procesos automáticos sin necesidad de personal. Lo mismo ocurre en la codificación. Los modelos lingüísticos son capaces, al menos en teoría, de completar y mejorar automáticamente el código. Con la continua ampliación de las funciones existentes, el potencial aumenta considerablemente.

GPT-3 como base del aprendizaje por transferencia moderno

Otro ejemplo del uso de modelos lingüísticos como el GPT-3 es el aprendizaje por transferencia. Se trata de una técnica de aprendizaje automático mediante la cual un modelo entrenado originalmente para una tarea específica se complementa para una segunda tarea. Ningún enfoque en Deep Learning consigue utilizar más rápidamente los modelos respectivos para otras tareas. Para desarrollar enfoques de modelos generales con o sin entrenamiento previo, aspectos como el aprendizaje de transferencia son una excelente opción.

Sin embargo, ya están surgiendo nuevas e impresionantes aplicaciones que pueden ser de importancia no sólo para grandes corporaciones tecnológicas y empresas. GPT-3 permite crear secciones de texto completamente nuevas a partir de párrafos individuales, sea cual sea el tema. Las estructuras, el estilo del lenguaje y el contenido se entrenan con precisión para reflejar el tema en detalle.

Especialmente en el contexto de la PLN, ya es evidente el enorme progreso que se ha logrado con GPT-3 en comparación con otras soluciones. De hecho, el modelo lingüístico es capaz incluso de resolver los problemas de los antiguos sistemas y modelos de PLN. Una de las ventajas decisivas en este punto es el ahorro de tiempo. Permite entrenar el modelo lingüístico de forma mucho más eficiente y prepararse con mayor intensidad para nuevas tareas. En el uso práctico, esto garantiza una ausencia mucho mayor de errores, así como una aplicación sin problemas.

Las aplicaciones de GPT-3

Para conocer mejor el uso de GPT-3, resulta útil echar un vistazo a escenarios prácticos y fines de aplicación. En los últimos meses se han creado numerosas demos con este fin, con las que ya se pueden reconocer ampliamente las funciones. Con la API adecuada, hoy en día ya pueden verse los últimos enfoques de uso del innovador modelo lingüístico, aunque lamentablemente a puerta cerrada. Las seis áreas siguientes son especialmente impresionantes y muestran lo que GPT-3 ya puede hacer en la fase actual:

1. código

Con GPT-3 se han hecho posibles innovadores generadores de diseños y completado de código. Esto permite, con el preentrenamiento adecuado, generar código completamente nuevo que se adapta al diseño deseado. Al describir el diseño con sus propias palabras, el modelo lingüístico es capaz de generar el código.

2. correos electrónicos

Ningún modelo hasta la fecha ha conseguido que la velocidad de recreación de los correos electrónicos sea tan corta. En cuanto al contenido, GPT-3 no admite errores, sino que basa la composición de una respuesta exactamente en las plantillas existentes y en el texto del correo electrónico recibido. Ni siquiera se pierde el estilo de redacción personal, sino que se adapta exactamente en el correo electrónico.

3. mesas

Incluso en el caso de las tablas con Excel, los usuarios pueden crear una secuencia compleja pero totalmente correcta a partir de unos pocos ejemplos. La conexión lógica de ejemplos como las ciudades y sus cifras de población resulta reconocible en todo momento para el modelo lingüístico. Así, el modelo busca de forma autónoma los valores de otras regiones y los añade a la tabla.

¿Y ahora qué? Una perspectiva...

Las numerosas funciones ya muestran la influencia que GPT-3 y las posibles versiones posteriores pueden tener en el mercado con el paso del tiempo. El lenguaje y el texto son importantes en todos los sectores y campos, por lo que el público en general tendrá un gran interés en el desarrollo de nuevas soluciones y funciones. Sin embargo, dado que GPT-3 ya no está disponible gratuitamente en comparación con las dos versiones anteriores, no sólo se vislumbran consecuencias positivas.

Dado que GPT-3 tiene licencia exclusiva de Microsoft, se ciernen peligros similares a los que ya existen con la búsqueda de Google. El motor de búsqueda domina prácticamente el mercado con más del 90 % de todas las consultas de búsqueda, sin que los proveedores comparables tengan la más mínima posibilidad. La exclusión del público del desarrollo ulterior de GPT-3 crea el peligro de nuevos monopolios u oligopolios, ya que la competencia carece de una base técnica similar o idéntica.

Para las empresas interesadas, hasta ahora sólo están disponibles las versiones anteriores, que aún pueden utilizarse, ampliarse y analizarse públicamente. Paralelamente, sin embargo, Microsoft está trabajando a marchas forzadas con equipos punteros para ampliar las capacidades en torno a GPT-3 y desarrollar nuevas tendencias. Para las pequeñas empresas comprometidas, probablemente ya sea demasiado tarde a estas alturas.

Autor:inside

JÖRG BIENERT

Jörg Bienert es socio y director general de Alexander Thamm GmbH, la empresa alemana líder en ciencia de datos e inteligencia artificial. Al mismo tiempo, es cofundador y presidente de KI-Bundesverband e.V. y miembro del Consejo Asesor de Economía Digital Joven del BMWI. Además, es un respetado conferenciante y aparece regularmente en la prensa como experto en datos e inteligencia artificial. Tras estudiar informática técnica y ocupar varios puestos en el sector de las TI, fundó ParStream, una start-up de Big Data con sede en Silicon Valley que fue adquirida por Cisco en 2015.

0 comentarios

Enviar un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *