Una habilidad especial del ser humano es crear cosas que antes no existían, pensar "fuera de la caja" y ser creativo... hasta ahora. Porque gracias a las nuevas tecnologías, el poder creativo ya no está reservado sólo a los humanos. Hablamos de la IA generativa. Las grandes redes neuronales artificiales son ahora capaces de crear, procesar y transformar contenidos sin precedentes. ¿Cómo funciona esto realmente, qué puede significar para nosotros y qué es ya posible hoy en día? En este artículo queremos profundizar en estas cuestiones.
Inhaltsverzeichnis
¿Qué es la IA generativa?
Hasta hace poco Inteligencia Artificial (IA) y Aprendizaje automático (ML) se limita en gran medida a los modelos predictivos que pueden utilizarse para Clasificación de patrones. En pocas palabras, hasta ahora un modelo de IA sólo podía distinguir si en una foto había un perro o un gato, por ejemplo. Ahora, la IA generativa da la vuelta a la tortilla: Como el término "generar" (lat. generare -> generar), un modelo generativo de IA es capaz de generar una imagen de un perro a partir de la descripción de la imagen de un perro. El truco está en que el perro representado no existe. Los contenidos creados mediante IA generativa no son más que modelos de contenidos existentes, pero son en sí mismos únicos. Otro aspecto destacado de la IA generativa es su capacidad para interpretar conceptos y contextos. Por ejemplo, si se supone que el perro se tumba debajo de una mesa, la IA puede interpretar correctamente que el perro se tumba debajo del tablero, no debajo de una de las patas de la mesa. Además, el modelo sabe que un perro suele ser más pequeño que una mesa, por lo que también puede representarlo proporcionalmente de forma correcta.
Para nosotros, los humanos, esto parece completamente natural al principio, porque somos buenos reconociendo e interpretando conexiones entre palabras individuales en frases u objetos en imágenes. Un ordenador, sin embargo, no tiene esta capacidad e interpreta todos los procesos basándose en reglas previamente establecidas. Sólo gracias a la alta disponibilidad de Datos y una inmensa potencia de cálculo, se ha hecho posible "enseñar" a un ordenador incluso relaciones que damos por sentadas.
¿Por qué ahora?
En los dos últimos años en particular, el tema de la "IA generativa" ha dado un gran salto tecnológico visible para el mundo exterior. Pero, ¿por qué precisamente ahora? En pocas palabras: Más datos, mejores modelos, mayor potencia de cálculo. Sin embargo, esto no sólo se aplica a la "IA generativa", sino a la IA en general.
Hace más de cinco años ya se investigaba en el campo de la "IA generativa". En aquel momento, sin embargo, los modelos más pequeños eran los más avanzados. Eran suficientes para casos de uso individuales como la detección de fraudes o la predicción de plazos de entrega, pero no tenían suficiente sentido para tareas como la IA generativa.
A partir de 2015, aproximadamente, la Carrera por los grandes modelos de IA(modelos de fundación). Uno de los desencadenantes fue el conocido Papel "La atención es todo lo que necesitas. En él, investigadores del Equipo de Investigación de Google presentan una nueva arquitectura de red neuronal: La arquitectura Transformer. A partir de esta arquitectura se desarrollaron rápidamente modelos lingüísticos que conseguían un tiempo de entrenamiento significativamente más corto con un mejor rendimiento en comparación con las arquitecturas convencionales. Con más y más parámetros, los modelos también se hicieron más y más complejos.
El modelo de transformador GPT-3 (Generative Pretrained Transformer 3) de la empresa privada de investigación OpenAI puso por fin la IA generativa al alcance de las masas por primera vez. Esto inició el desarrollo de muchas aplicaciones basadas en modelos generativos, como el completado de código, el reescalado de imágenes o la búsqueda basada en IA, Chatbots, Generadores de imágenes y muchos más.
¿Por qué necesitamos IA generativa?
El impacto de los modelos generativos de IA ya es perceptible: Nuevas herramientas y programasEl número de nuevas tecnologías que hacen uso de modelos como GPT-3, Difusión Estable y otros está creciendo rápidamente. En el sector creativo, abren nuevas posibilidades y velocidades de iteración inimaginables en la creación de ilustraciones, imágenes, artículos de blog, textos de marketing y mucho más. Microsoft muestra con ChatGPTcómo un motor de búsqueda también puede responder a consultas y búsquedas complejas de forma interactiva.
Sin embargo, los modelos generativos de IA no se limitan exclusivamente a ámbitos de aplicación creativos: También se utilizarán en investigación y desarrollo en el futuro.como el modelo AlphaFold El modelo, basado en IA generativa, es capaz de resolver un problema de plegamiento de proteínas que lleva décadas planteándose. Abre así nuevas posibilidades de investigación y acelera enormemente la investigación sobre el plegamiento de proteínas. Más allá, los modelos de IA generativa ya desempeñan un papel en el descubrimiento de materiales y fármacos. IBM, por ejemplo, ha desarrollado un modelo de Caja de herramientas que está diseñado para permitir a los investigadores descubrir medicamentos, moléculas, polímeros o incluso materiales de fabricación utilizando IA generativa sin necesidad de conocimientos expertos en ciencia de datos.
¿Cómo funcionan los modelos generativos de IA?
Los modelos generativos de IA se basan fundamentalmente en técnicas de aprendizaje automático como las técnicas no supervisadas y Aprendizaje semisupervisadopara procesar grandes cantidades de datos. Desde un punto de vista técnico, se basan principalmente en dos arquitecturas diferentes: GANs y Transformador. Éstos constituyen la base con cuya ayuda se entrena un modelo generativo que luego puede utilizarse para la inferencia.
Modelos de difusión
Los modelos de difusión son modelos generativos que se utilizado para la creación de imágenes se entrenan. Se entrenan con imágenes y sus descripciones (por ejemplo, "Un gato está sentado en un árbol"). Una vez aprendidos, estos modelos pueden generar nuevos patrones de datos similares a aquellos con los que fueron entrenados. Esto ha hecho que se utilicen rápidamente para distintos casos de uso, como Generación de imágenes y vídeos y en el Generación de datos sintéticos se han utilizado. Los modelos de difusión funcionan Datos de formación deconstruir" una imagen añadiendo sucesivamente ruido gaussiano y convertirla en una imagen ruidosa llena de puntos, similar a un televisor de tubo sin recepción. Posteriormente, la Modelopara recuperar los datos invirtiendo este proceso de ruido. Tras el entrenamiento, el modelo puede generar datos simplemente pasando ruido muestreado aleatoriamente por el proceso de eliminación de ruido aprendido y añadiendo una descripción de la imagen asociada. Aplicando un algoritmo de optimización que genere la secuencia de puntos mejor o más probable, se obtienen datos totalmente nuevos.
Modelos de transformadores
Los modelos de transformador utilizan conjuntos de datos completos para la transformación de entrada a salida. Secuencias de datos en lugar de puntos de datos individuales. Esto hace que sean mucho más eficientes de procesar en situaciones en las que el contexto entre los puntos de datos es relevante. Por lo tanto, los modelos Transformer (y el documento "Attention is all you need" publicado al respecto en 2017) forman la Base de grandes modelos lingüísticos.
El ejemplo del lenguaje, que debe interpretarse en frases y no palabra por palabra para que tenga sentido, refleja la arquitectura Transformer. Con un mecanismo de atención, el modelo Transformer puede, por ejemplo, asignar distintos niveles de atención a distintas palabras y así interpretar mejor el sentido de la frase.
Esta arquitectura es relevante en todos los modelos lingüísticos a gran escala, chatbots, transformadores de texto a imagen, pero también en aplicaciones científicas como AlphaFold de DeepMind.
¿Necesita ayuda con sus proyectos de IA Generativa? Desde nuestro Taller de Casos de Uso hasta nuestra formación ejecutiva, pasando por el desarrollo y mantenimiento de productos GenAI, Alexander Thamm GmbH ofrece a sus clientes una amplia gama de servicios en el campo de la IA Generativa. Obtenga más información en nuestra página de servicios y póngase en contacto con nosotros en cualquier momento para una consulta sin compromiso:
Panorama de las herramientas y avances de la IA generativa
La IA avanza rápidamente: en el panorama actual de la IA aparecen casi a diario nuevas herramientas y desarrollos basados en modelos generativos de IA. Las subáreas más importantes en la actualidad son la generación de imágenes y los modelos generativos. Generación de lenguaje natural. Las aplicaciones en el campo de la IA generativa se basan en los llamados modelos fundacionales. En pocas palabras, se trata de grandes modelos de IA que se han entrenado con grandes cantidades de datos y luego se han especificado para aplicaciones concretas mediante un ajuste fino.
cf. https://www.sequoiacap.com/article/generative-ai-a-creative-new-world/
Generación de texto
La comprensión, resumen y La generación del habla mediante IA se basa en los llamados LLM (Grandes modelos lingüísticos). Este se encuentran entre los grandes modelos de IA más importantes y representan un importante avance en el campo de la IA. Los LLM demuestran de forma impresionante lo que la IA generativa ya puede hacer hoy en día y, sobre todo, cómo podemos interactuar con ella. Los textos generados por los LLM apenas se distinguen de los escritos por humanos, pero pueden contener información incorrecta debido al entrenamiento tan genérico. Además, aún no han alcanzado el nivel de los textos redactados por escritores profesionales o artículos científicos.
En la actualidad se utilizan sobre todo para lluvias de ideas, primeros borradores, notas y contenidos de marketing. Queda por ver hasta qué punto los resultados de los LLM seguirán mejorando y ganando en calidad gracias a modelos más actualizados, la puesta a punto, la retroalimentación y una formación más específica para cada aplicación.
Generación de código
La generación y compleción de código se refiere a la creación de bloques enteros de código o líneas individuales de código mediante IA. Dado que los lenguajes de programación pueden interpretarse de forma análoga al lenguaje natural, los modelos de generación de código también se basan en LLM. Esto ofrece la ventaja de poder especificar cuál debe ser la función del código mediante una instrucción (= prompt), sin tener que familiarizarse con bibliotecas o paquetes de código.
Ya se trate de generación de texto o de código: ChatGPT está actualmente en boca de todos. Descubra cómo podrían ser los casos de uso en su empresa y qué retos de integración le esperan.
Generación de imágenes
Los modelos de texto a imagen son capaces de crear imágenes a partir de la introducción de texto. El estilo, el ángulo de visión, el tipo de imagen y el tamaño pueden modificarse a voluntad. Modelos como Midjourney, StableDiffusion y otros pueden utilizarse para crear una imagen al estilo de Picasso que no existe, crear obras de arte impresionantes o generar imágenes fotorrealistas de personas.
Descubra en nuestra entrada de blog cómo los nuevos modelos de IA, como Text-to-Image Transformer, pueden crear imágenes realistas a partir de texto con un aspecto sorprendentemente similar al de las ilustraciones y fotos hechas por humanos.
El contenido es AI-NG - Generadores de texto a imagen de un vistazo
Generación de vídeo
Con Make-A-Video de Meta y X-Clip de Microsoft, poco a poco van apareciendo modelos capaces incluso de generar vídeos artificialmente. Sin embargo, actualmente están limitados por la elevada potencia de cálculo necesaria para ello. Dado que la generación de imágenes ya es costosa desde el punto de vista computacional, para los vídeos se requiere una potencia de cálculo inmensa (al menos 24 imágenes por segundo). Sin embargo, modelos más eficientes y la mayor disponibilidad de grandes clusters de GPU harán que este cuello de botella sea cosa del pasado en el futuro.
Chatbots
Anteriormente conocidos como sistemas basados en reglas que se supone que pueden responder a las preguntas de los clientes, por ejemplo, estos modelos han evolucionado hasta convertirse en repositorios de conocimientos con capacidades de comunicación basadas en el contexto: Con ChatGPT, OpenAI ha conseguido crear un chatbot capaz de mantener una conversación completa sobre un tema, aceptar sugerencias de mejora y remitirse a puntos anteriores de la conversación. Esto hace que las conversaciones con ChatGPT sean muy intuitivas.
Puede encontrar más información interesante sobre chatbots y dónde puede utilizarlos en su empresa en nuestro blog:
Síntesis de voz
El reconocimiento de voz existe desde hace tiempo ("Oye Siri"), pero la generación de voz realmente utilizable no ha aparecido hasta hace poco. Para aplicaciones de gama alta, como películas y podcasts, el listón para una calidad de habla humana única que no suene mecánica es bastante alto. No obstante, ya hay modelos como "VALL-E" de Microsoft que son capaces de sintetizar el habla de un ser humano concreto utilizando sólo unas pocas muestras de habla. Dado que el habla es un rasgo muy distintivo de los seres humanos y que hasta ahora ha sido muy difícil falsificarla, las aplicaciones en este campo también pueden, por desgracia, causar daños considerables: Con deepfakes, por ejemplo, se pueden simular las voces de personalidades conocidas y pronunciar contenidos que nunca serían posibles en la realidad.
Modelado 3D
El diseño de productos es un proceso complicado, a menudo sólo el principio es difícil y las posibles optimizaciones son complicadas de aplicar. Los modelos generativos como DreamFusion son capaces de crear cualquier forma imaginable y acelerar y mejorar así este proceso iterativo. El modelo convierte el texto en un modelo 3D, lo que puede ser útil para hacer lluvias de ideas, encontrar nuevas formas posibles u optimizar componentes, por ejemplo. Los generadores 3D se basan en generadores de texto a imagen y aún están en las primeras fases de desarrollo, pero pueden ofrecer resultados prometedores en el futuro.
Otras aplicaciones
También en el sector del audio, los juegos y la música surgen constantemente nuevos modelos capaces de diseñar juegos, generar música sintética y mucho más. Hasta ahora, sin embargo, las canciones generadas por IA suenan bastante inusuales y raras: les falta (todavía) "alma".
Otro ámbito importante de los modelos generativos de IA es la investigación. Los modelos generativos también desempeñan un papel cada vez más importante en el descubrimiento de nuevos fármacos. El modelo AlphaFold de la empresa de investigación DeepMind ya ha demostrado que la IA generativa es capaz de responder a preguntas de investigación. Actualmente se están desarrollando modelos de IA en una amplia variedad de campos que pueden ayudar a los investigadores a responder a importantes preguntas científicas y, por tanto, podrían tener beneficios productivos para todos nosotros.
Marco jurídico para el uso de la IA generativa
En general, los modelos generativos son La llamada "IA de propósito general. En otras palabras, IA que no sólo se desarrolla para un fin limitado, sino que puede asumir muchas tareas diferentes. Dado que estos modelos sólo existen desde hace unos pocos años, hasta ahora no ha habido Aún no existe una normativa europea que regule el uso de estos modelos conseguido. Sin embargo, la UE está a punto de cambiar esta situación con la Ley de IA: La Ley de IA prevé hacer más segura la IA de propósito general (GP-AI) mediante diversos requisitos para la GP-AI e impedir el uso de esta tecnología con fines ilícitos. Sin embargo, tal y como están las cosas, los requisitos impuestos a los sistemas de GP-AI difícilmente pueden cumplirse.
¿Qué oportunidades y riesgos entraña para los usuarios de sistemas de IA el controvertido proyecto de Reglamento sobre la Ley de IA de la UE? Obtenga una visión general del enfoque temático y los retos para las empresas en nuestra entrada del blog:
La Ley de Inteligencia Artificial de la UE, ¿freno o motor de la innovación?
Protección de datos
Para muchos modelos generativos, sigue siendo dudoso si cumplen con el Reglamento General de Protección de Datos (GDPR) en Europa. El conocimiento casi increíble de grandes modelos como ChatGPT se basa en contenidos públicos como libros, artículos, sitios web o incluso publicaciones en las redes sociales. Por lo tanto, muchos datos también proceden de los propios usuarios de las redes sociales. En sí mismo, este hecho no es problemático, pero en ningún momento se obtiene el consentimiento de los creadores de estos contenidos. Sigue siendo cuestionable si los datos personales también fluyen hacia los modelos generativos.
Copyright
Los generadores de texto a imagen, en particular, se benefician del gran número de obras que se han distribuido por Internet. Sin embargo, los derechos de autor de estas obras siguen estando en una zona gris. Si, por ejemplo, genero una obra de arte "al estilo de Picasso", sigue sin estar claro si esto puede conciliarse con los derechos de autor de las obras de Picasso y en qué medida. El enfoque actual se basa en el hecho de que el "prompt", es decir, el texto de entrada, representa el logro creativo y, por tanto, puede estar protegido por derechos de autor, pero no la imagen generada ni los datos de entrenamiento utilizados para el modelo.
Deepfakes
Si nuestras obras humanas, como textos, imágenes, vídeos y grabaciones de sonido, caen en malas manos, también pueden utilizarse para muchas travesuras: Una y otra vez circulan por Internet los llamados "deepfakes", que imitan el habla, las expresiones faciales, los gestos y la apariencia de famosos, políticos y figuras públicas. Ahora son engañosamente reales y sólo los expertos pueden demostrar que son falsos. Con el previsible perfeccionamiento de los modelos generativos, esto puede tener consecuencias preocupantes, tanto en el ámbito privado como en el político y económico.
Outlook
Estamos entusiasmados con lo que nos deparará el futuro de los modelos generativos. Una cosa ya está clara: los ámbitos potenciales de aplicación y los casos de uso son casi infinitos.
¿Necesita ayuda con sus proyectos de IA Generativa? Desde nuestro Taller de Casos de Uso hasta nuestra formación ejecutiva, pasando por el desarrollo y mantenimiento de productos GenAI, Alexander Thamm GmbH ofrece a sus clientes una amplia gama de servicios en el campo de la IA Generativa. Obtenga más información en nuestra página de servicios y póngase en contacto con nosotros en cualquier momento para una consulta sin compromiso:
0 comentarios