Was ist Google PaLM (Pathways Language Model)?

Das Pathways Language Model (abgekürzt PaLM) von Google ist ein leistungsstarkes Sprachmodell, das für das Verstehen und die Generierung von Sprache entwickelt wurde. PaLM ist ein dichtes Decoder-Only-Transformer-Modell, das mit dem Pathways-System trainiert wurde. Es handelt sich um ein 540-Milliarden-Parameter-Modell, das auf mehreren TPU v4 Pods trainiert wurde, was es äußerst effizient macht.

PaLM wurde mit einer Kombination aus englischen und mehrsprachigen Datensätzen trainiert, darunter Webdokumente, Bücher, Wikipedia, Konversationen und GitHub-Code. Das Vokabular wurde außerdem so angepasst, dass alle Leerzeichen erhalten blieben, nicht im Vokabular enthaltene Unicode-Zeichen in Bytes aufgeteilt wurden und Zahlen in einzelne Token aufgeteilt wurden, was ein effektives Training ermöglichte.

Google PaLM ist ein wichtiger Meilenstein auf dem Weg zur Verwirklichung der Vision von Google Research für Pathways: ein einziges Modell, das über Domänen und Aufgaben hinweg verallgemeinert werden kann und gleichzeitig hocheffizient ist.

Funktionen und Fähigkeiten

PaLM erzielte beeindruckende Durchbrüche bei einer Vielzahl von Sprach-, Argumentations- und Codeaufgaben. Bei der Bewertung von 29 englischsprachigen Aufgaben zur Verarbeitung natürlicher Sprache (Natural Language Processing, kurz NLP) übertraf PaLM in 28 der 29 Aufgaben viele frühere Modelle. Darüber hinaus zeigte es eine starke Leistung bei mehrsprachigen NLP-Benchmarks, einschließlich Übersetzung, obwohl nur 22% des Trainingskorpus nicht-englisch ist.

Darüber hinaus zeigte Google PaLM bei mehreren BIG-Bench-Aufgaben beeindruckende Fähigkeiten zum Verstehen und Erzeugen natürlicher Sprache. So war das Modell beispielsweise in der Lage, Ursache und Wirkung zu unterscheiden, begriffliche Kombinationen in geeigneten Kontexten zu verstehen und sogar den Film anhand eines Emojis zu erraten.

PaLM verfügt außerdem über mehrere bahnbrechende Fähigkeiten in Bezug auf Code-Aufgaben. Es kann qualitativ hochwertigen Code erzeugen (text-to-code), der direkt ausgeführt werden kann, es kann natürlichsprachliche Erklärungen von Code verstehen und es kann Codevervollständigung und Fehlerkorrektur anbieten (code-to-code). PaLM hat gezeigt, dass es darüber hinaus in der Lage ist, Code für Aufgaben wie Sortieren, Suchen und Web Scraping zu generieren. All diese Aufgaben kann PaLM lösen, obwohl nur 5 % Code in seinem Pre-Training-Datensatz enthalten sind.

Besonders erwähnenswert ist die Fähigkeit, in few-shot Szenarien gut abzuschneiden, was mit dem fein abgestimmten Modell Codex 12B vergleichbar ist, obwohl es mit 50 Mal weniger Python-Code trainiert wurde. Dieses Ergebnis untermauert frühere Entdeckungen, dass größere Modelle effektiver sein können, wenn es darum geht, Transfer-Lernen sowohl aus Programmiersprachen als auch aus natürlichsprachlichen Daten zu nutzen, und so ihre Stichprobeneffizienz im Vergleich zu kleineren Modellen zu verbessern.

Die Trainingseffizienz von PaLM ist beeindruckend, mit einer Hardware-FLOPs-Auslastung von 57,8 %, der höchsten, die bisher für LLMs in dieser Größenordnung erreicht wurde. Dies ist auf eine Kombination aus der Parallelitätsstrategie und einer Neuformulierung des Transformer-Blocks zurückzuführen, die die parallele Berechnung von Aufmerksamkeits- und Feedforward-Schichten ermöglicht. Dies ermöglicht Geschwindigkeitssteigerungen durch TPU-Compiler-Optimierungen.