Die besten Transformer im Überblick – BERT, GPT-3 und Co

Veröffentlicht: 31.05.2021
Autor: [at] Redaktion
Kategorie: Deep Dive

Inhaltsverzeichnis

In den letzten Jahren hat Künstliche Intelligenz (KI) und insbesondere die Verarbeitung natürlicher Sprache (NLP) eine Revolution erlebt, die von einer bestimmten neuronalen Netzwerkarchitektur angetrieben wurde: dem Transformer. Sie ist inzwischen allgegenwärtig und wird ständig weiterentwickelt und optimiert. Aufgrund der unglaublichen Popularität gibt es mittlerweile eine Vielzahl unterschiedlicher Transformatoren, die verschiedene Modell-Aspekte ansprechen.

In dieser Blogserie wollen wir einen Überblick über die verschiedenen Transformatoren geben.

Aufmerksamkeit ist das oberste Gebot

Zunächst schauen wir uns die Wurzeln der bahnbrechenden neuronalen Netzwerkarchitektur an. In einer Arbeit aus dem Jahr 2017 stellte eine Gruppe von Forschern einen Challenger für den Status Quo im NLP vor, den Transformer. Sie kritisierten den damaligen Stand der Technik, bei dem rekurrente und konvolutionale neuronale Netze dominierten.

Die Forscher identifizierten drei kritische Punkte bei RNNs und CNNs:

die Gesamtmenge der Berechnungen, die sie durchführen müssen
der geringe Grad der Parallelisierung der Berechnungen
die Fähigkeit, weitreichende Verbindungen zwischen den Elementen einer Sequenz (z. B. Wörter in einem Satz) zu modellieren.

Der letzte Punkt ist besonders kritisch. Nehmen wir das Beispiel der RNNs, so wissen wir, dass das Modell einen Satz oder ein Dokument Wort für Wort verarbeitet. Bis das RNN das letzte Element verarbeitet hat, ist der Informationsfluss nur noch von den unmittelbar vorausgehenden Elementen vorhanden. Gleichzeitig erreichen die Daten vom Anfang des Satzes nicht das Ende.

Die Abbildung unten zeigt, wie sich der Informationsfluss zwischen den Wörtern bewegt, während die Transformatoren einen Satz verarbeiten. Man sieht, wie parallele Informationsflüsse bei jedem Verarbeitungsschritt ein Wort erreichen und dabei Informationen über alle Wörter im Kontext erhalten. Dieser Ansatz löst alle drei Probleme der RNNs.

Die Transformer-Schicht, die in der Grafik unten visualisiert ist, wird zur Kernkomponente vieler zukünftiger Generationen von Transformer-Architekturen. Die Architektur hat zwei Kernkomponenten:

Encoder: auf der linken Seite
Decoder: auf der rechten Seite

BERT

BERT (Bidirectional Encoder Representations from Transformers) ist einer der ersten Transformer, der nach seiner Anwendung im Kontext des Transfer Learnings einen Durchbruch erzielt hat. Transfer Learning ist ein Ansatz, bei dem ein neuronales Netzwerk zunächst auf eine bestimmte Aufgabe trainiert und anschließend auf eine andere Aufgabe angewendet wird. Diese Methode ermöglichte weitere Verbesserungen für die Erledigung der zweiten Aufgabe.

Die wichtigste technische Neuerung von BERT ist die maskierte Sprachmodellierung (MLM).

Die Technik ermöglicht ein bidirektionales Training, das den gleichen Informationsfluss wie im ursprünglichen Transformer Encoder verwendet. Da sie damals in einer Reihe von Benchmarks die beste Leistung zeigte, sorgte sie für große Aufmerksamkeit unter Experten in der natürlichen Sprachverarbeitung.

In der Abbildung unten sehen Sie ein Beispiel dafür, wie eines der Wörter, w4, maskiert wird. Dann muss das Modell raten: Was ist der tatsächliche Token im gegebenen Kontext? Nur 15 % der Wörter in einer Sequenz werden für das Training von BERT ersetzt, und zwar zufällig mit einer der folgenden Optionen:

80 % werden durch ein spezielles Masken-Token („[MASK]“) ersetzt, das dem Modell signalisiert, dass ein Wort „versteckt“ wurde
10 % mit einem zufälligen Wort
10 % mit dem Originalwort

Zusätzlich wird BERT mit der Vorhersage des nächsten Satzes (NSP) vortrainiert. Sie ist vergleichbar mit MLM, aber auf der Ebene des ganzen Satzes. BERT erhält ein Satzpaar und soll vorhersagen, ob der zweite Satz zum Kontext des ersten gehört oder nicht. In 50 Prozent der Fälle wird der zweite Satz durch einen zufälligen Satz ersetzt.

Durch die Kombination von MLM und NSP kann BERT eine bidirektionale Repräsentation der gesamten Sequenz erlernen, die in Benchmarks Spitzenergebnisse liefert.

OpenAI GPT

GPT (generatively pre-trained Transformer) und seine Nachfolger, GPT-2 und GPT-3, sind neben BERT die beliebtesten Transformer-Architekturen. Forscher des OpenAI-Instituts stellten sie in einer Arbeit etwa zur gleichen Zeit wie BERT vor. Diese präsentierte Benchmark-Ergebnisse, die mit denen von BERT vergleichbar sind.

Im Gegensatz zu BERT verwendet GPT den Decoder-Teil des Transformers. Daher ist er durch kausale Sprachmodellierung (CLM) vortrainiert. GPT lernt vorherzusagen, was das nächste Wort für einen bestimmten Kontext ist. Diese Art der Sprachmodellierung bringt eine verminderte Leistung hervor, die aber z. B. bei Klassifizierungsaufgaben eingesetzt werden könnte. GPT zeichnet sich jedoch dadurch aus, dass es sehr natürlich klingende Texte generiert, die oft den Eindruck erwecken, als seien sie von einem Menschen geschrieben worden.

Aus ethischen und sicherheitstechnischen Gründen gab das Forschungsteam von OpenAI zunächst keine Ressourcen zur Reproduktion ihrer Arbeit frei. Die aktuellste Version ist GPT-3 mit insgesamt 175 Milliarden Parametern – lesen Sie dazu auch unseren Blogbeitrag.

Fazit

Wir haben einen Überblick über die ersten Transformatoren gegeben, sie mit früheren Ansätzen wie RNNs verglichen und voneinander abgegrenzt. Im nächsten Teil unserer Serie werden wir die zweite Welle von Transformatoren, ihre neuen architektonischen Ergänzungen und ihre Vorteile vorstellen.

Diesen Beitrag teilen:

Anbieter:	HubSpot, Inc., 25 First Street, Cambridge, MA 02141, USA
Cookiename:	__hstc; hubspotutk; __hssc; __hssrc; __cf_bm; __cfruid
Laufzeit:	6 Monate; 6 Monate; 30 Minuten; Sitzungsende; 30 Minuten; Sitzungsende
Datenschutzlink:	https://legal.hubspot.com/de/privacy-policy
Host:	.hubspot.com

Anbieter:	InnoCraft Ltd., 150 Willis St, 6011 Wellington, New Zealand
Cookiename:	_pk_id..; _pk_ses..
Laufzeit:	13 Monate; 30 Minuten
Datenschutzlink:	https://matomo.org/gdpr-analytics/
Host:	.matomo.cloud

Anbieter:	Google Ireland Limited, Gordon House, Barrow Street, Dublin 4, Ireland
Cookiename:	YSC; VISITOR_INFO1_LIVE; PREF
Laufzeit:	Sitzungsende; 6 Monate; 8 Monate
Datenschutzlink:	https://policies.google.com/privacy?hl=de
Host:	.youtube.com

Anbieter:	Podigee GmbH, Revaler Straße 28, 10245 Berlin, Deutschland
Cookiename:	Nicht spezifiziert
Laufzeit:	Nicht spezifiziert
Datenschutzlink:	https://www.podigee.com/de/ueber-uns/datenschutz/
Host:	.podigee.com

Anbieter:	Google Ireland Limited, Gordon House, Barrow Street, Dublin 4, Irland
Cookiename:	SID; HSID; NID
Laufzeit:	2 Jahre; 2 Jahre; 6 Monate
Datenschutzlink:	https://policies.google.com/privacy?hl=de
Host:	.google.com