AT_Logo

GPT-3 – die nächste Stufe der KI

von | 17. März 2021 | Grundlagen

Seit dem Release der Beta von GPT-3 im Juni 2020 gab es zahlreiche Berichte über das neue Sprachmodell. Doch wie genau funktioniert GPT-3, welche Vorteile hat er in der praktischen Verwendung und was unterscheidet das Sprachmodell von den bisherigen Entwicklungen? In diesem Beitrag erfahren Sie, wie GPT-3 funktioniert und wo die Vorteile liegen.

Was genau ist GPT-3?

Wie die bereits seit einigen Jahren bestehenden Vorgänger macht GPT-3 eine Vorhersage für die nächsten Worte, die mit hoher Wahrscheinlichkeit folgen. Dies ermöglicht es, ganze Texte und präzise Inhalte mit Mehrwert zu verfassen, ohne menschliche Interaktion. Unterscheidbar sind die Inhalte des Roboters oft nicht von denen, die aus menschlicher Feder stammen. Einen Beispieltext können Sie auf theguardian.com einsehen.

Entwickelt wurde GPT-3 von der Organisation Open AI, die im Jahr 2015 vom Unternehmer Elon Musk gegründet wurde und zunächst als non-profit Gesellschaft aufgestellt war. Gemeinsam mit Universitäten und Institutionen weltweit forscht das Team im Bereich der Künstlichen Intelligenz und stellt die Ergebnisse der Forschung zur öffentlichen Anwendung zur Verfügung. Die Organisation Open AI hat sich an dieser Stelle das Ziel gesetzt, langfristig eine allgemeine und mensch-gleiche künstliche Intelligenz zu erschaffen. Das Sprachmodell GPT-3 ist dabei nicht das einzige Projekt der Organisation.

Auch Projekte wie Open AI Gym, wobei es sich um eine standardisierte Methode für den Vergleich mehrerer Algorithmen handelt, gehören zum Forschungsschwerpunkt der Organisation. Gleiches gilt für den Musikgenerator Jukebox. Dieses neuronale Netz ist in der Lage, Musik aus zahlreichen Genres und Stilen zu erzeugen und auf diese Weise eigene Musik entstehen zu lassen. Aber wie genau stehen all diese Entwicklungen in Verbindung mit GPT-3?

Die Entwicklung hin zum Modell GPT-3

Mit GPT-1 startete das erste Modell einer Serie von Projekten zur Anwendung von KI für  Natural Language Processing. Im Vorfeld war das Ziel dieser Entwicklung, eine überwachte Umgebung zum Lernen zu schaffen, um Stimmungen innerhalb von Texten erkennbar werden zu lassen. Dies wurde durch bestimmte Signale im Text genutzt, die wiederum von konkreten Dateneingaben abhängig waren. Doch die Ziele entwickelten sich weiter.

Im Jahr 2018 entstand durch die führenden Forscher des Teams ein neues Modell, welches unabhängig von konkreten Aufgaben funktioniert. Die Basis des Trainings stellen unspezifische Texte dar, die anschließend einzeln und für jede spezifische Aufgabe trainiert wurden. Das Resultat der kontinuierlichen Entwicklungen war im Anschluss GPT-1, welches das allgemeine Sprachverständnis durch konkrete Trainings verbessern sollte. Ganz ohne eine Vielzahl aufwendiger Beispielvorgaben.

Seit Juni 2020 steht mit GPT-3 nun die dritte Version zur Verfügung. Der Unterschied ist jedoch, dass die neue Version im Gegensatz zu den bisherigen zwei Modellen nicht kostenlos für weitere  Forschung bereitgestellt wurde. Open AI änderte das Geschäftsmodell und sorgte dafür, dass der Zugriff nun kostenpflichtig und zum aktuellen Zeitpunkt nur auf wenige Nutzer beschränkt ist. Offiziell handelt es sich daher noch um eine Beta, die Funktionen sind allerdings bereits weitreichender als bei je einer Version zuvor.

Auch im Vergleich zu anderen NLP-Anwendungen überzeugt GPT-3 mit einer enormen Vielfalt an Funktionen und neuen Lösungen. Im Gegensatz zu BERT, T5 oder dem direkten Vorgänger GPT-2 hat das Modell deutlich an Größe gewonnen. Es ist auf Texte mit einer komprimierten Größe von bis zu 570 GB trainiert. Der deutsche Hochleistungsrechner SuperMUC-NG würde immer noch mehr als 100 Tage Rechenzeit benötigen, um das Modell zu trainieren.

Wie funktioniert GPT-3?

GPT-3 ist ein Language Model. Konkret ausgedrückt ist dies ein statistisches Tool, mit dem sich Worte konkret vorhersagen lassen. Die Schwierigkeiten einer derartigen Lösung liegt jedoch in den verschiedenen Ebenen der Sprache. Jede Sprache basiert auf mehreren Bedeutungsebenen, sprachlicher Varianz, grammatischen Konstruktionen und stilistischen Mitteln, die Autoren individuell verteilen.

Auch die Schwierigkeit der Verwendung bestimmter Vokabeln ist bei vielen Sprachmodellen, die bisher am Markt verfügbar sind, ein gravierendes Problem. Grundsätzlich muss jedes Wort in eine bestimmte Folge von Zahlen konvertiert werden. Der Computer kennt nur Zahlen, weshalb vorab praktisch eine Übersetzung für das System selbst zur Verfügung stehen muss. Um diese Verknüpfung entstehen zu lassen, ist viel Speicherplatz erforderlich, was die Nutzung der Systeme einschränkt.

Dennoch haben moderne Sprachmodelle durchaus Potenzial. Besonders für große Konzerne wie Google führt die automatische Vervollständigung von Inhalten zu einer spürbaren Vereinfachung, um automatische Prozesse auch ohne personellen Aufwand im Blick zu behalten. Gleiches gilt im Coding. Sprachmodelle sind zumindest theoretisch in der Lage, Code automatisch zu vervollständigen und zu verbessern. Bei kontinuierlicher Erweiterung der bestehenden Funktionen steigt das Potenzial deutlich an.

GPT-3 als Basis des modernen Transfer Learnings

Ein weiteres Beispiel für die Anwendung von Language Modellen wie GPT-3 ist das Transfer Learning. Hierbei handelt es sich um eine maschinelle Lerntechnik, durch die ein ursprünglich für eine konkrete Aufgabe trainiertes Modell für eine zweite Aufgabe ergänzt wird. Kein Ansatz im Deep Learning schafft es schneller, die jeweiligen Modelle für weitere Aufgabenstellungen zu verwenden. Um allgemeine Modellansätze mit oder ohne Vorab-Training zu entwickeln, sind Aspekte wie das Transfer Learning eine hervorragende Wahl.

Schon heute zeigen sich jedoch auch beeindruckende neue Anwendungen, die nicht nur für große Tech-Konzerne und Betriebe von Bedeutung sein können. GPT-3 ermöglicht es, auf Basis einzelner Absätze vollständig neue Textabschnitte zu erstellen, egal um welches Thema es sich handelt. Strukturen, Sprachstil und Inhalt werden exakt antrainiert, um das Thema detailliert abzubilden.

Besonders im Kontext NLP zeigen sich bereits die enormen Fortschritte, die mit GPT-3 im Vergleich zu anderen Lösungen gemacht wurden. Faktisch ist das Sprachmodell dadurch sogar in der Lage, die Probleme alter NLP-Systeme und Modelle zu lösen. Einer der entscheidenden Vorteile ist an dieser Stelle die zeitliche Ersparnis. Sie ermöglicht es, das Training des Sprachmodells deutlich effizienter zu gestalten und sich intensiver auf neue Aufgaben vorzubereiten. Innerhalb der praktischen Nutzung sorgt dies für deutlich mehr Fehlerfreiheit sowie für eine reibungslose Anwendung.

Die Anwendungen von GPT-3

Um mehr über die Verwendung von GPT-3 zu erfahren, bietet sich ein Blick auf praktische Szenarien und Anwendungszwecke an. In den vergangenen Monaten sind hierzu zahlreiche Demos erstellt worden, mit denen sich die Funktionen bereits umfassend erkennen lassen. Mit der richtigen API lassen sich bereits heute, leider jedoch hinter verschlossenen Türen, die neusten Ansätze zur Verwendung des innovativen Sprachmodells erkennen. Die folgenden sechs Bereiche sind hierbei besonders beeindruckend und zeigen, was GPT-3 in der aktuellen Phase bereits alles kann:

1. Code

Innovative Generatoren für Layouts und die Vervollständigung von Code sind mit GPT-3 möglich geworden. Dadurch lässt sich bei entsprechendem Vortraining ein vollkommen neuer Code generieren, der sich dem gewünschten Layout anpasst. Durch die Beschreibung des Layouts in eigenen Worten ist das Sprachmodell in der Lage, den Code zu erzeugen.

2. E-Mails

Kein Modell hat es bisher geschafft, die Geschwindigkeit der Neuerstellung von E-Mails derart kurz zu halten. Inhaltlich lässt GPT-3 keine Fehler zu, sondern orientiert sich für das Verfassen einer Antwort exakt an den vorhandenen Vorlagen und am Text der Empfangsmail. Auch der persönliche Schreibstil geht nicht verloren, sondern wird in der E-Mail exakt adaptiert.

3. Tabellen

Auch für Tabellen mit Excel sind Nutzer in der Lage, anhand weniger Beispiele eine komplexe und dennoch vollständig korrekte Abfolge zu erstellen. Der logische Zusammenhang von Beispielen wie Städten und ihrer Bevölkerungszahl wird für das Sprachmodell jederzeit erkennbar. So sucht das Modell eigenständig nach den Werten für andere Regionen und ergänzt sie in der Tabelle.

What comes next? Ein Ausblick…

Die zahlreichen Funktionen zeigen bereits, welchen Einfluss GPT-3 und mögliche weitere Versionen mit der Zeit auf den Markt haben können. Sprache und Text sind in allen Branchen und Bereichen von Bedeutung, weshalb vor allem die Öffentlichkeit ein hohes Interesse an der Entwicklung neuer Lösungen und Funktionen haben wird. Da GPT-3 im Vergleich zu den bisherigen beiden Versionen jedoch nicht mehr frei verfügbar ist, zeichnen sich nicht nur positive Folgen ab.

Da GPT-3 exklusiv von Microsoft lizenziert ist, drohen ähnliche Gefahren wie bereits bei der Google-Suche. Die Suchmaschine hat mit mehr als 90 % aller Suchanfragen praktisch die Marktherrschaft, ohne dass vergleichbare Anbieter nur den Hauch einer Chance haben. Durch den Ausschluss der Öffentlichkeit an der Weiterentwicklung von GPT-3 entsteht die Gefahr weiterer Mono- oder Oligopole, da es der Konkurrenz an einer ähnlichen oder identischen technischen Basis mangelt.

Für interessierte Unternehmen gibt es bisher lediglich die vorherigen Versionen, die noch öffentlich genutzt, erweitert und analysiert werden können. Parallel dazu arbeitet Microsoft mit führenden Teams allerdings in rasantem Tempo daran, die Kapazitäten rund um GPT-3 zu erweitern und neue Trends zu entwickeln. Für kleine engagierte Unternehmen ist es an dieser Stelle wohl bereits zu spät.

<a href="https://www.alexanderthamm.com/de/blog/author/joerg/" target="_self">JÖRG BIENERT</a>

JÖRG BIENERT

Jörg Bienert ist Partner und CPO der Alexander Thamm GmbH, Deutschlands führendem Unternehmen für Data Science und KI. Gleichzeitig ist er Mitgründer und Vorsitzender des KI-Bundesverbandes e.V. und Mitglied des Beirats Junge Digitale Wirtschaft im BMWI. Darüber hinaus ist er ein angesehener Keynote-Speaker und wird regelmäßig in der Presse als Data & KI-Experte vorgestellt. Nach seinem Studium der technischen Informatik und mehreren Stationen in der IT-Branche, gründete er ParStream, ein Big-Data Start-up mit Sitz im Silicon Valley, das 2015 von Cisco übernommen wurde.