Was ist Google GLaM (Generalist Language Model)?

Das Generalist Language Model (kurz GLaM) wurde als effiziente Methode zur Skalierung von Sprachmodellen mit einem Mixture-of-Experts-Modell (MoE) von Google eingeführt. GLaM ist ein Modell mit Billionen von Gewichten, das durch Sparsamkeit effizient trainiert und bedient werden kann, während es gleichzeitig eine konkurrenzfähige Leistung bei mehreren „few-shot“-Lernaufgaben erzielt. Es wurde anhand von 29 öffentlichen Benchmarks zur Verarbeitung natürlicher Sprache (Natural Language Processing, kurz NLP) in sieben Kategorien evaluiert, die von der Sprachvervollständigung bis zur Beantwortung von Fragen in offenen Bereichen und Aufgaben zur Inferenz natürlicher Sprache reichen.

Für die Entwicklung von GLaM hat Google einen Datensatz mit 1,6 Billionen Token erstellt, der eine breite Palette von Anwendungsfällen für das Modell repräsentiert. Anschließend wurde ein Filter zur Bewertung der Qualität von Webseiteninhalten erstellt, indem GLaM mit Texten aus seriösen Quellen wie Wikipedia und Büchern trainiert wurde. Dieser Filter wurde dann verwendet, um eine Teilmenge von Webseiten auszuwählen, die mit Inhalten aus Büchern und Wikipedia kombiniert wurden, um den endgültigen Trainingsdatensatz zu erstellen.

Funktionen und Fähigkeiten

Das MoE-Modell besteht aus verschiedenen Teilmodellen, wobei jedes Teilmodell bzw. jeder Experte auf unterschiedliche Eingaben spezialisiert ist. Das Gating-Netzwerk steuert die Experten in jeder Schicht und wählt die beiden am besten geeigneten Experten für die Verarbeitung der Daten für jedes Token aus. Die Vollversion von GLaM verfügt über 1,2T Gesamtparameter für 64 Experten pro MoE-Schicht mit insgesamt 32 MoE-Schichten, aktiviert aber nur ein Teilnetz von 97B Parametern pro Token-Vorhersage während der Inferenz.

Google GLaM erlaubt es, dass verschiedene Experten auf verschiedene Arten von Eingaben aktiviert werden, was eine Sammlung von E x (E-1) verschiedenen Feedforward-Netzwerk-Kombinationen für jede MoE-Schicht ergibt, was zu einer größeren rechnerischen Flexibilität führt. Die endgültig gelernte Darstellung eines Tokens ist die gewichtete Kombination der Ausgaben der beiden Experten. Um eine Skalierung auf größere Modelle zu ermöglichen, kann jeder Experte innerhalb der GLaM-Architektur mehrere Recheneinheiten umfassen.

GLaM wurde unter Verwendung einer Zero-Shot- und One-Shot-Einstellung evaluiert, bei der die Aufgaben während des Trainings nie gesehen werden. Es hat eine konkurrenzfähige Leistung bei 29 öffentlichen NLP-Benchmarks erzielt, die von Lückentext- und Vervollständigungsaufgaben über die Beantwortung offener Fragen, Winograd-ähnliche Aufgaben, Commonsense Reasoning, In-Context-Leseverständnis, SuperGLUE-Aufgaben und natürlichsprachliche Inferenz reichen. Die Leistung von GLaM ist vergleichbar mit einem dichten Sprachmodell, wie GPT-3 (175B), mit deutlich verbesserter Lerneffizienz in den 29 öffentlichen NLP-Benchmarks. GLaM reduziert sich auf eine grundlegend dichte, auf Transformer basierende Sprachmodellarchitektur, wenn jede MoE-Schicht nur einen Experten hat. Die Leistung und die Skalierungseigenschaften von GLaM wurden untersucht und mit Basis-Dense-Modellen verglichen, die auf denselben Datensätzen trainiert wurden.