El contenido es AI-NG - Generadores de texto a imagen de un vistazo

de | 15 septiembre 2022 | Conceptos básicos

El modelo lingüístico GPT-3 ha demostrado de forma impresionante cómo la IA entiende nuestro lenguaje y puede escribir, analizar o resumir textos por sí misma. Recientemente, los transformadores de texto a imagen han acaparado los titulares y han demostrado de forma contundente lo que pueden hacer los nuevos modelos de IA: Los transformadores de texto a imagen son capaces de crear imágenes a partir de texto que se asemejan mucho a obras de arte y fotografías hechas por humanos. ¿Cómo de parecidas? Hemos reunido dos imágenes (ver más abajo): una es real y la otra ha sido creada por un modelo de conversión de texto en imagen como Midjourney o Stable Diffusion. Así que primero un pequeño test: ¿Cuál de las dos imágenes es una foto real? La solución la encontrarás a lo largo del artículo.

Por cierto, puede obtener más información sobre los transformadores de texto a imagen en la página 18 de octubre en nuestro webinar gratuito "Inteligencia artística.

De lo realmente realista a lo completamente extraño

En enero de 2021, la empresa estadounidense OpenAI ha desarrollado un modelo de transformador de texto a imagen de una calidad sin precedentes: DALL:E. Basado en el modelo lingüístico GPT-3 DALL:E puede generar una imagen introduciendo una instrucción (llamada prompt). La imagen creada artificialmente se basa en los elementos solicitados en la instrucción. El quid de la cuestión: no se trata de una especie de motor de búsqueda que selecciona una imagen adecuada de entre las existentes, sino que se crea una imagen nueva e independiente que aún no existe. Es más, no importa si el objeto existe en la realidad: puedes dar rienda suelta a tu imaginación. Por ejemplo, es difícil imaginar un sillón con forma de aguacate. DALL:E ya: 

Al principio, sólo se podían crear imágenes con una resolución y precisión bastante bajas. Sin embargo, esto ha cambiado masivamente en el último año y medio. Los nuevos modelos Transformer de empresas privadas como OpenAI (DALL:E 2) o Google (Imagen), pero también comunidades de desarrolladores como la fusión entre CompVis (Grupo de investigación de la LMU de Múnich), Estabilidad.ai y LAION o laboratorios de investigación como A mitad de camino pueden hacer más: generan fotos que apenas se distinguen de la realidad, generan impresionantes obras de arte o reúnen en una imagen situaciones totalmente distintas e irreales. 

Stable Diffusion de Stabilty.ai, lanzado en agosto de 2022, es de código abierto, no está censurado y puede ser utilizado por cualquiera. Dependiendo de la potencia de cálculo disponible, se puede utilizar para generar imágenes interesantes y, con un poco de experimentación, crear mundos fantásticos de fantasía, así como fotos hiperrealistas. Pero, ¿cómo?

"una pintura medieval del wifi que no funciona" (DALL:E 2)
"El presidente Obama da las gracias a Batman por salvar la ciudad" (Difusión estable)

Los transformadores de texto a imagen funcionan con la ayuda de las llamadas prompts. La tarea consiste en describir la imagen que desea crear con la mayor precisión posible, incluidos los personajes representados, el estilo artístico, la cámara utilizada para "disparar" la imagen y el artista. Stable Diffusion reconoce personajes conocidos de películas, famosos, personajes fantásticos y marcas, es decir, casi todo lo que hay en Internet. 

¿Qué hay detrás? 

Estos modelos se crean con un enorme conjunto de datos de imágenes y sus descripciones textuales. Con ayuda del PLN (Procesamiento del Lenguaje Natural), las descripciones de las imágenes se interpretan y se asignan a las imágenes. En el caso de la difusión estable, estas imágenes proceden de la base de datos LAION-5B, una colección de 5 850 millones de imágenes con descripciones textuales. 

A veces, el entrenamiento de los modelos con estas imágenes puede llevar mucho tiempo, dependiendo del hardware en el que se ejecute. La primera versión de Stable Diffusion se ejecutó en un Ultracluster con 4.000 GPU A100 capacitado. También es necesario un cierto nivel de hardware para utilizar el modelo: Según Stability.ai, cualquiera que quiera probar Stable Diffusion localmente debería tener al menos 10 GB de VRAM disponibles en su tarjeta gráfica (en nuestras pruebas, incluso funciona con sólo 6 GB en una GTX2060). Stable Diffusion está diseñado para funcionar en tu propio ordenador doméstico y no sólo en centros de datos y clusters de GPU. 

¿Es esto arte o quién tiene razón?

Las posibles áreas de aplicación de Difusión Estable, Midjourney & Co. son múltiples, porque: El prompt está sujeto a los derechos de autor del "inventor" en función de su longitud y complejidad, pero las imágenes no. Según la Oficina de Derechos de Autor de EE.UU. el derecho de imagen no puede transferirse a una obra de arte generada por IA porque no tiene autor o creador humano. Por tanto, al menos tal como están las cosas, pueden utilizarse para cualquier fin. 

Los modelos ya son populares en la escena artística y muchos usuarios los utilizan de forma creativa. Con dibujos, mundos de fantasía, cómics y similares, cualquiera puede crear obras de arte muy individuales. En la Concurso de arte de la Feria Estatal de Colorado el artista Jason Allen fue capaz incluso de convencer al jurado con su obra "Théâtre D'opéra Spatia" generada a través de Midjourney, ganando rápidamente el primer puesto con su creación de IA y causando furor en la escena artística y más allá.  

Cuadro ganador del concurso de arte de la Feria Estatal de Colorado "Théâtre D'opéra Spatia" de David Allen - creado a través de Midjourney

Los modelos también pueden utilizarse de forma creativa para ilustraciones: Mediante las funciones Img-to-Img se pueden editar las imágenes existentes, insertar elementos que antes no estaban o eliminar elementos molestos. 

Uso creativo de la difusión estable con Photoshop Fuente: Reddit

Stable Diffusion & Co. puede utilizarse, por ejemplo, en el diseño de productos, interiores, logotipos o ilustraciones para editar o recoger inspiración. Los posibles ámbitos de aplicación son múltiples y aún no se han agotado.

Pero, ¿qué pueden hacer realmente los modelos? Después de haber mostrado aquí algunos ejemplos, he aquí la solución al cuestionario anterior. La respuesta correcta: Ambas imágenes fueron generadas por una IA, una por Midjourney y la otra por Stable Diffusion. Tras el escalado y la corrección del color, las imágenes parecen aparentemente reales. Lo interesante es que las dos personas que aparecen en las imágenes no existen, simplemente fueron creadas por los dos modelos después de introducir el mensaje.  

¿Cómo se llega a ser artista de la IA?

Si quieres probar Stable Diffusion o Midjourney (los dos modelos que se pueden utilizar "gratis") por ti mismo, puedes hacerlo completamente sin experiencia en programación. Mientras tanto, existen aplicaciones que pueden descargarse gratuitamente. Y como Stable Diffusion es de código abierto, incluso puede desahogarse aquí con algo de experiencia en programación Python en el propio modelo (disponible a través de HuggingFace). Sin embargo, si no dispone de un clúster de GPU en su casa, es mejor optar por las siguientes opciones:

"Napoleón cruza los Alpes en una Harley-Davidson" (Midjourney)

A mitad de camino La forma más sencilla de hacerlo es mediante la función Página web uso. Aquí puedes unirte al canal oficial de Discord y probar gratis si eres un "prompt artist". También existe la opción de reescalar las imágenes. El "upscaling" aumenta artificialmente la resolución de las imágenes mediante IA.

Difusión estable también es más fácil de usar a través de su plataforma oficial. Con la beta de la aplicación web Dreamstudio puede escribir sus propias indicaciones en línea y hacer que Stable Diffusion cree imágenes interesantes a partir de ellas. Sin embargo, las imágenes nativas del modelo están disponibles en una resolución de 512×512. La resolución se puede aumentar artificialmente aquí - pero esto también aumenta el número de fichas necesarias para crearlas. 

"Panorama de los Alpes suizos con un robot deambulando" (Difusión estable)

AI, quo vadis?

Como primer modelo de conversión de texto en imagen de código abierto, Stable Diffusion no lleva mucho tiempo en el mercado (22 de agosto de 2022). Sin embargo, las primeras aplicaciones, integraciones y apps se están desarrollando rápidamente para su uso, y la tendencia va en rápido aumento. En teoría, también es posible entrenar a otros a partir de estos modelos, por ejemplo para leer el habla o generar música.

Es importante recordar que los vídeos constan de varios fotogramas por segundo. Con la ayuda de la potencia informática adecuada, el escalado y la combinación de modelos texto-imagen e imagen-imagen, se pueden crear animaciones o vídeos, por ejemplo aquí se muestra.

"el futuro" (Midjourney)
"futuro sostenible con IA" (Midjourney)

¿Y qué tiene que decir la IA al respecto? Hemos preguntado a Midjourney cómo será el futuro: Lo que se supone que nos dicen estas imágenes aún no lo sabemos del todo, pero quizá pronto 😉 .

Inteligencia artística incl. demostraciones en directo en el [en] webinar

Nuestro [at].experto Christan Lemke (Ingeniero Senior de Aprendizaje Automático) nos revela más cosas sobre los transformadores de texto a imagen y cómo funcionan. Imparte una charla sobre 18 de octubre en nuestro webinar gratuito "Inteligencia artística de los distintos modelos -incluidos ejemplos en directo ricos en imágenes- y echa un vistazo a la "sala de máquinas" de la tecnología de IA. A continuación, habrá un turno de preguntas y debate.


Autor:inside

Luke Lux

Lukas Lux es un estudiante que trabaja en el departamento de Estrategia y Clientes de Alexander Thamm GmbH. Además de sus estudios en Ingeniería de Ventas y Gestión de Productos con especialización en Ingeniería Informática, se ocupa de las últimas tendencias y tecnologías en el campo de los Datos y la IA y las recopila para usted en colaboración con nuestros [at]expertos.

0 comentarios