Zurück

Generative AI – Eine Übersicht

Veröffentlicht: 16.03.2023
Kategorie: Deep Dive

Inhaltsverzeichnis

Eine besondere Fähigkeit des Menschen ist es, Dinge zu erschaffen, die vorher noch nicht da waren, „Out-of-the-Box“ zu denken und kreativ zu sein – bis jetzt. Denn dank neuer Technologie bleibt die schöpferische Kraft nicht mehr allein dem Menschen vorbehalten. Die Rede ist von Generativer KI (Generative AI). Große künstliche neuronale Netze sind nun in der Lage, noch nie dagewesene Inhalte zu erschaffen, zu bearbeiten und zu transformieren. Wie genau funktioniert das eigentlich, was kann das für uns bedeuten und was ist heute schon möglich? Auf diese Fragen wollen wir in diesem Beitrag genauer eingehen.

Was ist generative KI?

Bis vor kurzem waren Künstliche Intelligenz (KI) und Machine Learning (ML) weitestgehend auf Vorhersagemodelle beschränkt, die zur Klassifizierung von Mustern verwendet wurden. Einfach gesagt, konnte ein KI-Modell bislang lediglich unterscheiden, ob z. B. ein Hund oder eine Katze auf einem Bild zu sehen ist. Generative KI dreht den Spieß nun um: Wie der Begriff „generieren“ (lat. generare -> erzeugen) schon vermuten lässt, ist ein generatives KI-Modell in der Lage, ein Hunde-Bild auf Grundlage der Bildbeschreibung eines Hundes zu erzeugen. Der Clou an der Sache: Den abgebildeten Hund gibt es nicht. Durch Generative KI erzeugte Inhalte sind lediglich an bereits existierende angelehnt, an sich sind sie jedoch einzigartig. Ein weiteres Highlight Generativer KI ist ihre Fähigkeit, Konzepte und Zusammenhänge zu interpretieren. Soll beispielsweise der Hund unter einem Tisch liegen, so kann die KI völlig richtig interpretieren, dass der Hund unter der Tischplatte liegt – nicht etwa unter einem der Tischbeine. Außerdem ist dem Modell bekannt, dass ein Hund normalerweise kleiner als ein Tisch ist und kann daher auch proportional korrekt dargestellt werden.

Uns Menschen erscheint dies erst einmal völlig selbstverständlich, weil wir gut darin sind, Zusammenhänge zwischen einzelnen Wörtern in Sätzen oder Objekten in Bildern zu erkennen und zu deuten. Ein Computer besitzt diese Fähigkeit jedoch nicht und interpretiert jegliche Vorgänge anhand vorherig aufgestellter Regeln. Erst durch die hohe Verfügbarkeit an Daten und immense Rechenleistungen ist es möglich geworden, auch solche für uns selbstverständliche Zusammenhänge einem Computer „beizubringen“.

Warum jetzt?

Vor allem in den letzten zwei Jahren hat das Thema „Generative AI“ einen nach außen sichtbaren großen Technologiesprung gemacht. Aber warum gerade jetzt? Kurz gesagt: mehr Daten, bessere Modelle, höhere Rechenleistungen. Das trifft allerdings nicht nur auf „Generative AI„ zu, sondern auf KI im Allgemeinen.

Schon vor über fünf Jahren wurde zu dem Themengebiet „Generative AI“ geforscht. State-of-the-Art waren damals jedoch kleinere Modelle. Für einzelne Use Cases wie Betrugserkennung oder Lieferzeitvorhersage reichten diese auch aus, für Aufgaben wie generative KI waren sie jedoch nicht aussagekräftig genug.

Ab ca. 2015 begann dann das Rennen um große KI-Modelle, (Foundation-Modelle). Einer der Auslöser dafür war das bekannte Paper „Attention is All You Need“. Darin stellen Forscher des Google Research Teams eine neue Architektur eines neuronalen Netzes vor: Die Transformer-Architektur. Rasant wurden vorrangig Sprachmodelle auf Basis dieser Architektur entwickelt, die gegenüber herkömmlichen Architekturen eine deutlich kürzere Trainingszeit bei besserer Performance erzielten. Mit immer mehr Parametern wurden auch die Modelle immer komplexer.

Das Transformer-Modell GPT-3 (Generative Pretrained Transformer 3) des privaten Forschungsunternehmens OpenAI machte schließlich generative KI erstmals für die breite Masse zugänglich. Damit begann die Entwicklung vieler Applikationen basierend auf generativen Modellen wie Code-Vervollständigung, Image Upscaler, KI-basierte Suche, Chatbots, Bildgeneratoren und viele mehr.

Wozu brauchen wir generative KI?

Der Impact von generativen KI-Modellen ist schon jetzt spürbar: Neue Tools und Programme, die sich Modelle wie GPT-3, Stable Diffusion und Co. zunutze machen, sprießen aus dem Boden. Im Kreativbereich eröffnen sie dabei neue Möglichkeiten und ungeahnte Iterationsgeschwindigkeiten bei der Erstellung von Illustrationen, Bildern, Blogartikeln, Marketingtexten und vielem mehr. Microsoft zeigt mit ChatGPT, wie eine Suchmaschine auch komplexe Anfragen und Suchen interaktiv beantworten kann.

Generative KI-Modelle begrenzen sich jedoch nicht ausschließlich auf kreative Anwendungsbereiche: Auch in der Forschung und Entwicklung werden sie zukünftig zum Einsatz kommen, wie beispielsweise das Modell AlphaFold des privaten Forschungsunternehmens DeepMind. Das auf generativer KI basierende Modell ist in der Lage, ein jahrzehntealtes Problem der Proteinfaltung zu lösen. Damit eröffnet es neue Forschungsmöglichkeiten und beschleunigt die Proteinfaltungs-Forschung immens. Weiterführend spielen in der Material- und Medikamentenerforschung generative KI-Modelle schon heute eine Rolle. IBM hat beispielsweise ein Open-Source Toolkit entwickelt, das Forscher befähigen soll, ohne Data Science-Expertenwissen Arzneimittel, Moleküle, Polymere oder auch Fertigungsmaterialien mittels generativer KI zu entdecken.

Wie funktionieren generative KI-Modelle?

Generative KI-Modelle basieren grundlegend auf Machine Learning Techniken wie Unsupervised und Semi-Supervised Learning, um große Mengen an Daten zu verarbeiten. Aus technischer Sicht fußen diese vornehmlich auf zwei unterschiedlichen Architekturen: GANs und Transformer. Diese stellen die Basis dar, mithilfe derer ein generatives Modell trainiert wird und anschließend zur Inferenz genutzt werden kann.

Diffusionsmodelle

Diffusionsmodelle sind generative Modelle, die vor allem für die Erstellung von Bildern verwendet werden. Trainiert werden sie mit Bildern und deren Beschreibungen (Bspw: „Eine Katze sitzt auf einem Baum“). Einmal gelernt, können diese Modelle neue Datenmuster erzeugen, die denen ähnlich sind, auf denen sie trainiert wurden. Das führte dazu, dass sie schnell für verschiedene Anwendungsfälle wie Bild- und Videogenerierung sowie in der Generierung synthetischer Daten eingesetzt wurden. Diffusionsmodelle funktionieren, indem sie Trainingsdaten durch sukzessives Hinzufügen von Gaußschem Rauschen ein Bild „dekonstruieren“ und in ein rauschendes Bild voller Punkte verwandeln – ähnlich einem Röhrenfernseher ohne Empfang. Anschließend versucht das Modell, die Daten durch Umkehrung dieses Rauschvorgangs wiederherzustellen. Nach dem Training kann das Modell Daten erzeugen, indem es einfach zufällig abgetastetes Rauschen durch den erlernten Entrauschungsprozess leitet und eine zugehörige Bildbeschreibung dazugibt. Durch die Anwendung eines Optimierungsalgorithmus, der die beste bzw. wahrscheinlichste Stichfolge erzeugt, entstehen so ganz neue Daten.

Transformer-Modelle

Transformer-Modelle nutzen bei der Transformation von Input zu Output ganze Datensequenzen statt individueller Datenpunkte. Das macht sie in Situationen, wo der Kontext zwischen Datenpunkten relevant ist, deutlich effizienter in der Verarbeitung. Daher bilden Transformer-Modelle (und das dazu im Jahr 2017 veröffentlichte Paper „Attention is all you need“) die Grundlage großer Sprachmodelle.

Das Beispiel Sprache, die nicht Wort für Wort, sondern in Sätzen interpretiert werden muss, um darin einen Sinn erkennen zu können, spiegelt die Transformer-Architektur wider. Mit einem Attention-Mechanismus kann das Transformer-Model beispielsweise verschiedenen Wörtern eine unterschiedliche hohe Aufmerksamkeit (engl. Attention) zuweisen und so die Aussage des Satzes besser interpretieren.

Relevant ist diese Architektur bei allen großen Sprachmodellen, Chatbots, Text-zu-Bild-Transformern aber auch in wissenschaftlichen Anwendungen wie DeepMind’s AlphaFold.

Die Landschaft generativer KI-Tools und Entwicklungen

AI is moving fast: Fast schon täglich erscheinen in der heutigen KI-Landschaft neue Tools und Entwicklungen basierend auf generativen KI-Modellen. Die aktuell wichtigsten Teilbereiche sind dabei vor allem Image Generation und Natural Language Generation. Dabei basieren Anwendungen im Bereich Generative AI auf sog. Foundation-Modellen. Das sind, einfach gesagt, große KI-Modelle, die mit Unmengen an Daten trainiert wurden und anschließend mittels Fine-Tuning für konkrete Anwendungen weiter spezifiziert werden.

Grafik Gen AI Model und Application Layer
vgl. www.sequoiacap.com/article/generative-ai-a-creative-new-world/

Text-Generierung

Das Verständnis, die Zusammenfassung und Generierung von Sprache mittels KI basiert auf sogenannten LLMs (Large Language Models). Diese zählen zu den wichtigsten großen KI-Modellen und repräsentieren einen wichtigen Fortschritt im Bereich KI. LLMs zeigen eindrucksvoll, was generative KI heute schon kann und vor allem, wie wir interaktiv mit ihr interagieren können. Von LLMs erzeugte Texte sind kaum von menschengeschriebenen Texten zu unterscheiden, können jedoch durch das sehr generische Training falsche Informationen enthalten. Das Niveau von Texten professioneller Schreiber oder wissenschaftlicher Papers haben sie zudem noch nicht erreicht.

Genutzt werden sie aktuell vor allem zur Ideenfindung, für erste Entwürfe, Notizen und Marketing-Content. Es bleibt zu erwarten, inwieweit sich der Output von LLMs durch aktuellere Modelle, Finetuning, Feedback und anwendungsspezifischeres Training weiter verbessert und an Qualität gewinnt.

Code-Generierung

Code-Generierung und -Vervollständigung bezeichnet die Erstellung ganzer Codeblöcke oder einzelner Codezeilen mittels KI. Weil Programmiersprachen analog zu natürlicher Sprache interpretiert werden können, basieren Modelle zur Code-Generierung ebenfalls auf LLMs. Dies bietet den Vorteil, mittels einer Anweisung (=Prompt) zu spezifizieren zu können, was die Funktion des Codes sein soll, ohne Eigenheiten sich dazu in Code-Bibliotheken oder -Pakete einarbeiten zu müssen

Ob Text- oder Code-Generierung: ChatGPT ist aktuell in aller Munde. Erfahren Sie, wie Use Cases in ihrem Unternehmen aussehen könnten und welche Herausforderungen bei der Integration auf sie warten.

ChatGPT Use Cases für Unternehmen

Bild-Generierung

Text-to-Image Modelle sind in Lage, aus einer Texteingabe Bilder zu erzeugen. Dabei lassen sich Stil, Blickwinkel, Art des Bildes und Größe je nach Belieben modifizieren. So kann man mit Modellen wie Midjourney, StableDiffusion und Co. ein Bild im Stile Picassos erzeugen, das es gar nicht gibt, atemberaubende Artworks kreieren oder fotorealistische Bilder von Personen zu generieren.

Erfahre in unserem Blogbeitrag, wie neue KI-Modelle wie Text-to-Image Transformer aus Texten realistische Bilder erstellen können, die menschengemachten Kunstwerken und Fotos verblüffend ähnlich sehen.

Content ist KI-NG – Text-zu-Bild-Generatoren im Überblick

Video-Generierung

Mit Make-A-Video von Meta und Microsofts X-Clip tauchen langsam ebenfalls Modelle auf, die in der Lage sind, sogar künstlich Videos zu generieren. Limitiert werden diese aktuell jedoch durch die hohe Rechenleistung, die dafür benötigt wird. Weil bereits die Generierung von Bildern rechenaufwendig ist, benötigt es für Videos (mind. 24 Bilder pro Sekunde) immense Rechenleistung. Durch effizientere Modelle und eine breitere Verfügbarkeit großer GPU-Cluster wird dieses Nadelöhr aber in der Zukunft der Vergangenheit angehören.

Chatbots

Die früher als regelbasierte Systeme bekannten Modelle, die in der Lage sein sollen, beispielsweise Kundenfragen zu beantworten, haben sich heute zu Wissensspeichern mit kontextbasierter Kommunikationsfähigkeit weiterentwickelt: Mit ChatGPT ist OpenAI ein Chatbot gelungen, der in der Lage ist eine ganze Konversation über ein Thema zu führen, dabei Verbesserungsvorschläge akzeptiert und auf vergangene Punkte der Konversation Bezug nehmen kann. Dadurch gestalten sich Konversationen mit ChatGPT sehr intuitiv.

Weitere spannende Informationen über Chatbots und wo Sie diese in Ihrem Unternehmen einsetzen können, finden Sie in unserem Blog:

Chatbots: Kompakt erklärt

Sprachsynthese

Spracherkennung gibt es schon seit einiger Zeit („Hey Siri“), wirklich brauchbare Sprachgenerierung aber erst seit kurzem. Bei High-End-Anwendungen wie Filmen und Podcasts liegt die Messlatte für eine einmalige menschliche Sprachqualität, die nicht mechanisch klingt, recht hoch. Trotzdem gibt es bereits Modelle wie „VALL-E“ von Microsoft, die in der Lage sind, die Sprache eines bestimmten Menschen zu synthetisieren – nur mithilfe einiger Sprachbeispiele. Weil die Sprache ein sehr distinktives Merkmal des Menschen ist und es bislang sehr schwierig war, diese zu fälschen, können hier Anwendungen leider auch erheblichen Schaden anrichten: Mit Deepfakes lassen sich zum Beispiel die Stimmen bekannter Persönlichkeiten simulieren und Inhalte aussprechen, die in der Realität so nie zustande kämen.

3D-Modellierung

Produktdesign ist ein komplizierter Prozess, oft ist allein der Anfang schwer und potenzielle Optimierungen sind kompliziert umzusetzen. Generative Modelle wie DreamFusion sind in der Lage, jede erdenkliche Form zu erzeugen und dadurch diesen iterativen Prozess zu beschleunigen und zu verbessern. Das Modell konvertiert Text in ein 3D-Modell – das kann einerseits bei Brainstormings, der Findung neuer möglicher Formen oder der Optimierung von bspw. Bauteilen sinnvoll sein. 3D-Generatoren basieren auf Text-zu-Bild Generatoren und befinden sich noch in der Anfangsphase ihrer Entwicklung, können jedoch in Zukunft für vielversprechenden Output sorgen.

Weitere Anwendungen

Auch im Audio-, Gaming-, und Musikbereich kommen immer wieder neue Modelle auf, die in der Lage sind Spiele zu designen, synthetische Musik zu erzeugen und vieles mehr. Bislang hören sich KI-generierte Lieder aber eher ungewöhnlich und schräg an – es fehlt ihnen (noch) an „Seele“.

Ein weiterer wichtiger Bereich von generativen KI-Modellen ist die Forschung. Bei der Entdeckung neuer Medikamente spielen generative Modelle ebenfalls eine immer größere Rolle. Das Modell AlphaFold des Forschungsunternehmens DeepMind hat bereits bewiesen, dass generative KI in der Lage ist, Fragestellungen der Forschung zu beantworten. So entwickeln sich derzeit in verschiedensten Bereichen KI-Modelle, die der Forschung bei der Beantwortung wichtiger wissenschaftlicher Fragestellungen helfen können und so einen produktiven Nutzen für uns alle haben könnten.

Rechtlicher Rahmen für den Einsatz generativer KI

Generell handelt es sich bei generativen Modellen um sogenannte „General Purpose AI“. Also KI, die nicht nur für einen bestimmten eingeschränkten Zweck entwickelt wird, sondern viele verschiedene Aufgaben übernehmen kann. Weil diese Modelle erst seit wenigen Jahren existieren, wurde sich bislang noch keine EU-weite gesetzliche Regelung zu Nutzung dieser Modelle erzielt. Mit dem „AI Act“ ist die EU jedoch im Begriff, dies zu ändern: Der AI Act sieht vor, General Purpose AI (GP-AI), mittels verschiedener Anforderungen an GP-AI sicherer zu machen und den Gebrauch dieser Technologie zu unrechten Zwecken zu verhindern. Die Anforderungen, die dabei an GP-AI Systeme gestellt werden, sind nach aktuellem Stand jedoch kaum zu erfüllen.

Welche Chancen und Risiken birgt der kontrovers diskutierte Verordnungsentwurf EU AI Act für Anwender von KI-Systemen? Erhalten Sie einen Überblick über die thematischen Schwerpunkte und Herausforderungen für Unternehmen in unserem Blogbeitrag:

Der EU AI Act – Innovationsmotor oder Bremse?

Datenschutz

Bei vielen generativen Modellen bleibt zweifelhaft, ob sie mit der Datenschutzgrundverordnung (DSGVO) in Europa übereinstimmen. Das schier unglaubliche Wissen großer Modelle wie ChatGPT basiert auf öffentlichen Inhalten wie Büchern, Artikel, Webseiten oder auch Beiträgen in den sozialen Medien. Daher stammen viele Daten auch von den Usern sozialer Medien selbst. An sich ist diese Tatsache nicht problematisch, jedoch wird sich zu keinem Zeitpunkt die Zustimmung der Ersteller dieser Inhalte eingeholt. Ob hier also auch personenbezogene Daten mit in generative Modelle einfließen, bleibt fraglich.

Copyright

Vor allem Text-zu-Bild Generatoren profitieren von der Vielzahl an Werken, die im Internet verbreitet wurden. Die Urheberrechte dieser Werke bleiben dabei jedoch in einer Grauzone. Generiere ich beispielsweise ein Kunstwerk „im Stil von Picasso“ bleibt es ungeklärt, ob und inwiefern dies mit den Urheberrechten der Werke Picasso`s zu vereinen ist. Die aktuelle Herangehensweise beruft sich darauf, dass der „Prompt“, also der Eingabetext hier die kreative Leistung darstellt und daher urheberrechtlich geschützt werden kann – nicht jedoch das generierte Bild oder die verwendeten Trainingsdaten des Modells.

Deepfakes

Gelangen unsere menschlichen Werke wie Texte, Bilder, Videos und Tonaufnahmen in die falschen Hände, kann damit ebenfalls viel Unfug getrieben werden: Immer wieder kursieren sogenannte „Deepfakes“ im Netz, die Sprache, Mimik, Gestik und Erscheinungsbild von Stars, Politikern und öffentlichen Personen nachahmen. Diese sind mittlerweile täuschend echt und können lediglich von Expert:innen als Fälschungen überführt werden. Dies kann bei der zu erwartenden fortführenden Verbesserung generativer Modelle bedenkliche Folgen mit sich bringen – im privaten, politischen wie wirtschaftlichen Sinne.

Ausblick

Quelle: www.sequoiacap.com/article/generative-ai-a-creative-new-world/

Wir sind gespannt, was die Zukunft generativer Modelle mit sich bringt. Eines jetzt schon klar: die potenziellen Einsatzbereiche und Use Cases sind nahezu unendlich.

Diesen Beitrag teilen:

Anbieter:	HubSpot, Inc., 25 First Street, Cambridge, MA 02141, USA
Cookiename:	__hstc; hubspotutk; __hssc; __hssrc; __cf_bm; __cfruid
Laufzeit:	6 Monate; 6 Monate; 30 Minuten; Sitzungsende; 30 Minuten; Sitzungsende
Datenschutzlink:	https://legal.hubspot.com/de/privacy-policy
Host:	.hubspot.com

Anbieter:	InnoCraft Ltd., 150 Willis St, 6011 Wellington, New Zealand
Cookiename:	_pk_id..; _pk_ses..
Laufzeit:	13 Monate; 30 Minuten
Datenschutzlink:	https://matomo.org/gdpr-analytics/
Host:	.matomo.cloud

Anbieter:	Google Ireland Limited, Gordon House, Barrow Street, Dublin 4, Ireland
Cookiename:	YSC; VISITOR_INFO1_LIVE; PREF
Laufzeit:	Sitzungsende; 6 Monate; 8 Monate
Datenschutzlink:	https://policies.google.com/privacy?hl=de
Host:	.youtube.com

Anbieter:	Podigee GmbH, Revaler Straße 28, 10245 Berlin, Deutschland
Cookiename:	Nicht spezifiziert
Laufzeit:	Nicht spezifiziert
Datenschutzlink:	https://www.podigee.com/de/ueber-uns/datenschutz/
Host:	.podigee.com

Anbieter:	Google Ireland Limited, Gordon House, Barrow Street, Dublin 4, Irland
Cookiename:	SID; HSID; NID
Laufzeit:	2 Jahre; 2 Jahre; 6 Monate
Datenschutzlink:	https://policies.google.com/privacy?hl=de
Host:	.google.com