In den letzten Jahren hat Künstliche Intelligenz (KI) und insbesondere die Verarbeitung natürlicher Sprache (NLP) eine Revolution erlebt, die von einer bestimmten neuronalen Netzwerkarchitektur angetrieben wurde: dem Transformer. Sie ist inzwischen allgegenwärtig und wird ständig weiterentwickelt und optimiert. Aufgrund der unglaublichen Popularität gibt es mittlerweile eine Vielzahl unterschiedlicher Transformatoren, die verschiedene Modell-Aspekte ansprechen.
In dieser Blogserie wollen wir einen Überblick über die verschiedenen Transformatoren geben.
Inhaltsverzeichnis
Aufmerksamkeit ist das oberste Gebot
Zunächst schauen wir uns die Wurzeln der bahnbrechenden neuronalen Netzwerkarchitektur an. In einer Arbeit aus dem Jahr 2017 stellte eine Gruppe von Forschern einen Challenger für den Status Quo im NLP vor, den Transformer. Sie kritisierten den damaligen Stand der Technik, bei dem rekurrente und konvolutionale neuronale Netze dominierten.
Die Forscher identifizierten drei kritische Punkte bei RNNs und CNNs:
- die Gesamtmenge der Berechnungen, die sie durchführen müssen
- der geringe Grad der Parallelisierung der Berechnungen
- die Fähigkeit, weitreichende Verbindungen zwischen den Elementen einer Sequenz (z. B. Wörter in einem Satz) zu modellieren.
Der letzte Punkt ist besonders kritisch. Nehmen wir das Beispiel der RNNs, so wissen wir, dass das Modell einen Satz oder ein Dokument Wort für Wort verarbeitet. Bis das RNN das letzte Element verarbeitet hat, ist der Informationsfluss nur noch von den unmittelbar vorausgehenden Elementen vorhanden. Gleichzeitig erreichen die Daten vom Anfang des Satzes nicht das Ende.
Die Abbildung unten zeigt, wie sich der Informationsfluss zwischen den Wörtern bewegt, während die Transformatoren einen Satz verarbeiten. Man sieht, wie parallele Informationsflüsse bei jedem Verarbeitungsschritt ein Wort erreichen und dabei Informationen über alle Wörter im Kontext erhalten. Dieser Ansatz löst alle drei Probleme der RNNs.
Die Transformer-Schicht, die in der Grafik unten visualisiert ist, wird zur Kernkomponente vieler zukünftiger Generationen von Transformer-Architekturen. Die Architektur hat zwei Kernkomponenten:
- Encoder: auf der linken Seite
- Decoder: auf der rechten Seite
BERT
BERT (Bidirectional Encoder Representations from Transformers) ist einer der ersten Transformer, der nach seiner Anwendung im Kontext des Transfer Learnings einen Durchbruch erzielt hat. Transfer Learning ist ein Ansatz, bei dem ein neuronales Netzwerk zunächst auf eine bestimmte Aufgabe trainiert und anschließend auf eine andere Aufgabe angewendet wird. Diese Methode ermöglichte weitere Verbesserungen für die Erledigung der zweiten Aufgabe.
Die wichtigste technische Neuerung von BERT ist die maskierte Sprachmodellierung (MLM).
Die Technik ermöglicht ein bidirektionales Training, das den gleichen Informationsfluss wie im ursprünglichen Transformer Encoder verwendet. Da sie damals in einer Reihe von Benchmarks die beste Leistung zeigte, sorgte sie für große Aufmerksamkeit unter Experten in der natürlichen Sprachverarbeitung.
In der Abbildung unten sehen Sie ein Beispiel dafür, wie eines der Wörter, w4, maskiert wird. Dann muss das Modell raten: Was ist der tatsächliche Token im gegebenen Kontext? Nur 15 % der Wörter in einer Sequenz werden für das Training von BERT ersetzt, und zwar zufällig mit einer der folgenden Optionen:
- 80 % werden durch ein spezielles Masken-Token („[MASK]“) ersetzt, das dem Modell signalisiert, dass ein Wort „versteckt“ wurde
- 10 % mit einem zufälligen Wort
- 10 % mit dem Originalwort
Zusätzlich wird BERT mit der Vorhersage des nächsten Satzes (NSP) vortrainiert. Sie ist vergleichbar mit MLM, aber auf der Ebene des ganzen Satzes. BERT erhält ein Satzpaar und soll vorhersagen, ob der zweite Satz zum Kontext des ersten gehört oder nicht. In 50 Prozent der Fälle wird der zweite Satz durch einen zufälligen Satz ersetzt.
Durch die Kombination von MLM und NSP kann BERT eine bidirektionale Repräsentation der gesamten Sequenz erlernen, die in Benchmarks Spitzenergebnisse liefert.
OpenAI GPT
GPT (generatively pre-trained Transformer) und seine Nachfolger, GPT-2 und GPT-3, sind neben BERT die beliebtesten Transformer-Architekturen. Forscher des OpenAI-Instituts stellten sie in einer Arbeit etwa zur gleichen Zeit wie BERT vor. Diese präsentierte Benchmark-Ergebnisse, die mit denen von BERT vergleichbar sind.
Im Gegensatz zu BERT verwendet GPT den Decoder-Teil des Transformers. Daher ist er durch kausale Sprachmodellierung (CLM) vortrainiert. GPT lernt vorherzusagen, was das nächste Wort für einen bestimmten Kontext ist. Diese Art der Sprachmodellierung bringt eine verminderte Leistung hervor, die aber z. B. bei Klassifizierungsaufgaben eingesetzt werden könnte. GPT zeichnet sich jedoch dadurch aus, dass es sehr natürlich klingende Texte generiert, die oft den Eindruck erwecken, als seien sie von einem Menschen geschrieben worden.
Aus ethischen und sicherheitstechnischen Gründen gab das Forschungsteam von OpenAI zunächst keine Ressourcen zur Reproduktion ihrer Arbeit frei. Die aktuellste Version ist GPT-3 mit insgesamt 175 Milliarden Parametern – lesen Sie dazu auch unseren Blogbeitrag.
Fazit
Wir haben einen Überblick über die ersten Transformatoren gegeben, sie mit früheren Ansätzen wie RNNs verglichen und voneinander abgegrenzt. Im nächsten Teil unserer Serie werden wir die zweite Welle von Transformatoren, ihre neuen architektonischen Ergänzungen und ihre Vorteile vorstellen.
0 Kommentare