Prompt-Optimierung mit Reinforcement Learning in großen Sprachmodellen

Veröffentlicht: 24.05.2024
Autor: Brijesh Modasara, Constantin Sanders, Dr. Philipp Schwartenbeck
Kategorie: Deep Dive

Inhaltsverzeichnis

Prompt Optimization with Reinforcement Learning

Die Anwendungsmöglichkeiten von großen Sprachmodellen (Large Language Models, LLMs) in Geschäftsprozessen rücken seit der Einführung von ChatGPT im November 2022 zunehmend ins Rampenlicht. Die Verfügbarkeit von hochmodernen maschinellen Lernmodellen wie ChatGPT oder die von HuggingFace bereitgestellten Open-Source-Modelle, macht diese Techniken sowohl für technische als auch für nicht-technische Benutzer leicht zugänglich. Besonders essenziell für eine erfolgreiche und effektive Interaktion mit LLMs ist die korrekte Spezifikation der Eingabe, auch Prompt genannt: Wie muss ich den Prompt formulieren, um den Output des LLMs zu optimieren? In den sozialen Medien werden immer mehr Erkenntnisse darüber geteilt, was einen optimalen Prompt ausmacht, und welche „Do’s und Don’ts“ es dabei zu beachten gilt. Die meisten solcher Artikel befassen sich mit „Prompt Engineering“-Techniken, bei denen menschliche Benutzer einen schriftlichen Prompt so lange optimieren, bis sie den gewünschten Output erreichen (z. B. „Antworte im Stil eines Mechanikers“ oder „Hier ist eine Beispielantwort – bitte beantworte meine Frage in einem ähnlichen Stil“).

Prompt-Engineering ist eine erstaunlich einfache und kosteneffiziente Möglichkeit, um die Leistung von LLMs zu verbessern. Allerdings ist das menschliche Verständnis der den LLMs zugrundeliegenden Funktionsweisen begrenzt. Somit sind auch die Möglichkeiten der Prompt-Optimierung begrenzt. Jüngste Forschungen in dem Gebiet fanden jedoch vielversprechende Optimierungsmethoden, die auf KI-Algorithmen basieren. Einer dieser Ansätze ist das Reinforcement Learning (RL).

RL ermöglicht es, einfache Lösungen für komplexe Probleme zu finden. Es basiert auf dem trial-and-error Prinzip, welches besonders nützlich ist, wenn das Ziel bekannt ist (z. B. das Erreichen einer guten Ausgabe von einem LLM), nicht aber der Weg zum Ziel (z. B. das Schreiben eines „guten“ Prompts, um eine bestimmte Ausgabe zu erhalten). Dieser Artikel erläutert Ansätze zur Optimierung von Prompts in LLMs, mit einem besonderen Fokus auf RL. Zukünftige Artikel werden verschiedene LLM-Optimierungsansätze vergleichen und detaillierter beschreiben, wie z.B. die Eigenschaften von RL-generierten Prompts, ihre Anwendbarkeit in realen Szenarien und die Gewährleistung von Sicherheitsaspekten. Bevor wir tiefer in das Thema Prompt-Optimierung mit RL einsteigen, ist es jedoch wichtig, RL in den größeren Kontext der LLM-Optimierung zu stellen.

Was ist Reinforcement Learning (RL)?

Reinforcement Learning (RL) ist ein Teilgebiet des maschinellen Lernens, bei dem ein Agent lernt, eine „optimale“ Aktion in einem sequenzieller Entscheidungsprozess durchzuführen (Abbildung 1). Die Hauptkomponenten von RL sind die Umgebung, der Agent, der Zustand, die Aktion, die Policy und die Belohnung. Die Umgebung bestimmt das Umfeld, in dem der Agent bestimmte Aktionen ausführt. Diese Aktionen basieren auf einer Policy (Handlungsstrategie), die als die Wahrscheinlichkeitsverteilung über Aktionen bei einem aktuellen Zustand der Umgebung definiert ist. Die Strategie wird dabei klassisch durch das trial-and-error Prinzip erlernt: Handlungen, die positiv belohnt werden, treten öfter ein, während Handlungen, die negativ belohnt oder gar bestraft werden, eher gemieden werden. Eine ausführlichere Darstellung von RL-Algorithmen finden Sie in unseren Artikel zu RL-Frameworks und Algorithmen.

Abbildung 1: Aufbau des Reinforcement Learning. Der Agent lernt durch trial-and-error, gewünschte Aktionen in einer gegebenen Umgebung auszuführen. Nach der Auswahl einer Aktion erhält der Agent eine Rückmeldung in Form von Belohnungssignalen („Wie gut war meine Aktion angesichts der aktuellen Umstände?“). Der Agent strebt danach, seine Belohnung zu maximieren – die Belohnungssignale helfen ihm also dabei, seine Handlungen entsprechend anzupassen.

Eine kompakte Einleitung in die Definition und Begrifflichkeiten hinter Reinforcement Learning erhalten Sie in unserem Grundlagenartikel zur Methodik:

Reinforcement Learning: kompakt erklärt

Was sind große Sprachmodelle (LLMs)?

Große Sprachmodelle (Large Language Models, LLMs) sind komplexe neuronale Netze, die menschenähnliche Texte verarbeiten und selbst generieren können. Sie lernen die Semantik der menschlichen Sprache, indem sie riesige Mengen von Textdaten verarbeiten, und so das nächste Wort in einer Folge von Wörtern oder Sätzen vorhersagen können.

Sie können dies auf der Grundlage des aktuellen Kontexts tun, der von einem Benutzer bereitgestellt wird, und auf der Grundlage riesiger Mengen von Open-Source-Daten (wie reddit, Wikipedia usw.), auf denen sie trainiert wurden. Das Analysieren und Lernen von riesigen Datensätzen ermöglicht es den LLMs kohärente Texte zu erzeugen, bei der Sprach- und Textübersetzung zu helfen, Fragen zu beantworten, und weitere sprach- und textbezogene Aufgaben auszuführen – z. B. Wörter und Texte klassifizieren, Stimmungsanalysen durchführen oder textbasierte Informationen bereitstellen. Somit eignen sich LLMs hervorragend für die Lösung allgemeiner Aufgaben. Weniger effektiv sind sie allerdings für domänenspezifische Aufgaben. Daher müssen vortrainierte LLM-Modelle anhand der jeweiligen domänenspezifischen Datensätze angepasst und optimiert werden.

Große Sprachmodelle transformieren die Interaktion mit Technologie und erweitern deren Anwendung von Content-Erstellung bis zum Kundenservice. Unsere Übersicht stellt Ihnen 14 relevante Vertreter im Detail vor:

Die 14 wichtigsten großen Sprachmodelle: Ein umfassender Überblick

Techniken zur Prompt-Optimierung

Die zwei bekanntesten Methoden zur Optimierung des Outputs von LLMs sind die Anpassung des Modells selbst (Fine-tuning) und die Optimierung des Input Prompts (Prompt Optimierung). Im Fine-tuning müssen die Modellparameter mit domänenspezifischen Daten neu trainiert werden. Es erfordert große technische Ressourcen, und ist somit rechenintensiv und zeitaufwändig. Prompt Optimierung hingegen ist eine simplere Methode, mit der das aufwändige Anpassen der Modellparameter effektiv umgangen werden kann. Denn: Bei der Prompt Optimierung wird der Input Prompt optimiert, was deutlich effektiver ist und weniger Ressourcen beansprucht. Zudem können verschiedene Prompts schneller getestet und verglichen werden. Es überrascht daher nicht, dass der Beruf des „Prompt-Ingenieurs“ zu einem der wichtigsten Berufe in der zukünftigen Entwicklung von LLMs erklärt wurde.

Innerhalb der Prompt-Optimierung gibt es verschiedene Lösungsansätze:

Prompt Engineering: Hier geht es um die Erstellung und Prüfung von schriftlichen Prompts durch menschliche Benutzer. So kann die Interpretation der Optimierungsschritte leicht verstanden werden. Das Modell erzielt das gewünschte Ergebnis durch die effektive Strukturierung der Prompts, die Einbindung spezifischer Anweisungen, die Bereitstellung von Kontext, sowie die Verwendung von Schlüsselwörtern.
Soft Prompt Tuning: Während der Prompt-Engineering-Prozess die von Menschen erstellten Prompts verändert, ändert die Soft-Prompt-Tuning-Methode die Einbettung des Prompts, der in das vortrainierte LLM eingespeist wird. Eine Einbettung ist die numerische, für das Modell verständliche Darstellung des Prompts. Anstelle der Einbettung des Prompt-Textes durch das vortrainierte LLM wird ein kleineres trainierbares Modell vor das Haupt-LLM gesetzt. Das bedeutet, dass die Parameter des LLMs während des Trainingsprozesses des kleineren Prompt-Einbettungsmodells nicht aktualisiert werden. Soft Prompt Tuning ist daher besonders effektiv für die Erstellung besserer Prompt-Einbettungen für Down-Streaming-Aufgaben, ohne dass alle LLM-Parameter aufwändig aktualisiert werden müssen. Es ist ein interessantes Beispiel für eine „parameter-effizientes Fine-tuning“ dar, die speziell auf den Prompt zugeschnitten.
Auto-Prompt: Auto-Prompt optimiert Prompts durch das automatische Hinzufügen von „Trigger Tokens“ zu einer anfänglichen Prompt-Vorlage. Diese Trigger-Tokens sind Hinweise, die dem LLM signalisieren, welche Antwort gewünscht ist. So kann man beispielsweise Stimmungskategorien und Schlüsselwörter als Hinweise zur Verfügung stellen, mithilfe dessen das LLM nach einem Text sucht und seine Stimmung entsprechend identifizieren kann.
Reinforcement Learning: Wie oben beschrieben, lernt ein LLM basierend auf dem trial-and-error Prinzip. Im Kontext der Prompt-Optimierung kann RL zur Optimierung des Prompt-Inputs verwendet werden, um einen wertvollen Output zu erhalten. Die Qualität des LLM-Outputs dient als Belohnungssignal, und die spezifische Formulierung der Eingabeaufforderung kann als verschiedene Aktionen verstanden werden, die vom aktuellen Kontext, z. B. dem Zustand der Umgebung, abhängen. Dies ermöglicht es dem RL-Agenten, nützliche Input Prompts zu finden, die von menschlichen Nutzern nicht als natürlichsprachliche Eingaben identifiziert werden können, z. B. durch die Verwendung spezieller Zeichenfolgen.

Den ‚optimalen‘ Prompt mit Reinforcement Learning finden

Reinforcement Learning ist vor allem im Zusammenhang mit LLMs populär, da es den LLM-Output anhand dessen optimieren kann, was seine menschlichen Benutzer wünschen. Diese Methode ist auch bekannt als „Reinforcement Learning from Human Feedback“ (RLHF), denn sie bezieht die menschliche Aufsicht in den Trainingsprozess des LLMs ein. Das Feedback des Nutzers wird dann als Belohnung verwendet, um eine Strategie zu trainieren, die eine optimale Antwort in der Reihenfolge des Dialogs erzeugt. Einen detaillierten Überblick über RLHF finden Sie in unserem Artikel zu Reinforcement Learning from Human Feedback (RLHF) im Bereich von großen Sprachmodellen.

RLHF bildet die Grundlage für den enormen Erfolg von ChatGPT. Im Gegensatz zu RLHF beim initialen Trainingsprozesses, wird beim Reinforcement Learning zur Prompt Optimierung jedoch nicht das vortrainierte LLM optimiert. Vielmehr trainiert es einen RL-Agenten, der den verwendeten Prompt generiert oder optimiert. Ein „Policy LLM“ erzeugt also zu Beginn des Trainingsprozesses per Zufall einen Prompt. Dieser Prompt wird zusammen mit dem Kontext als Eingabe für ein „Task LLM“ verwendet, um eine darauffolgende Aufgabe, z.B. die Klassifizierung, durchzuführen. Der Output des Task-LLMs wird dabei mit dem gewünschten Output verglichen – die Differenz dessen dient als Belohnungsrückmeldung an das Policy-LLM, welches wiederum die Parameter anpasst, um in der nächsten Trainingsiteration einen Prompt zu erzeugen, der in einer größeren Belohnung resultiert, und somit einen besseren Output generiert.

Abbildung 2: Reinforcement Learning bei der Prompt-Optimierung. Mit dem gleichen Ansatz wie in Abbildung 1 kann ein RL-Agent trainiert werden, der sinnvolle Input-Prompts generiert. Dieses „Policy LLM“ erzeugt solche Input Prompts basierend auf einem vorgegebenen Kontext (vorangegangene Konversation und/oder eine Benutzerfrage). Dieser Input-Prompt wird dann an eine weiteres ‚Task LLM‘ gesendet, das den Output generiert. Im Weiteren wird dieser Output mit einem gewünschten „Goldstandard“-Output verglichen, wobei die Abweichung zwischen dem tatsächlichen und dem gewünschten Output die Grundlage für das Belohnungssignal bildet. Das Policy LLM wiederum lernt aus diesem Feedback und optimiert seine Eingabeaufforderungen.

Bei der Prompt-Optimierung mit RL gilt jedoch eines vor allem zu beachten: Im Gegensatz zu anderen, von Menschen erstellten Prompt-Optimierungstechniken, kann Prompt-Optimierung mit RL in „unsinnigen“ Input-Prompts resultieren, die der menschlichen Sprache nicht gerecht werden. In solchen Fällen bestehen die Input-Prompts teilweise aus Sonderzeichen und Buchstabenfolgen. Dies birgt auch Sicherheitsrisiken, da das Identifizieren solcher fehlerhaften Input-Prompts mit Hilfe des LLMs selbst die Herausgabe sensibler Daten veranlassen kann.

Ein interessanter Ansatz zur Optimierung von Prompts mit RL heißt ‚RLPROMPT‘ (Optimizing Discrete Text Prompts with Reinforcement Learning‘ (https://arxiv.org/pdf/2205.12548.pdf ), der in folgenden Beiträgen näher beschrieben wird.

Vertiefen Sie Ihr Verständnis für das Konzept der „Tödlichen Triade“ im Reinforcement Learning, seine Auswirkungen und Lösungsansätze. Dieser Deep Dive versorgt Sie mit einem Überblick über RL-Konzepte, Vorstellung der „Tödlichen Triade“ und deren Bewältigungsstrategien.

Reinforcement Learning – Deadly Triad

Mit Reinforcement Learning zu besseren Prompts

Reinforcement Learning hat wichtige Entwicklungen im Bereich der künstlichen Intelligenz vorangetrieben. Ohne RL oder RLHF wäre die Entwicklung von ChatGPT und weiteren erfolgreichen LLM-Modellen nicht möglich gewesen. Obwohl RL-Methoden vergleichsweise jung sind, leisten sie speziell im Bereich der LLM-Prompt-Optimierung einen signifikanten Beitrag zum Erfolg. Das liegt vor allem an dem ihnen zugrunde liegenden algorithmischem Ansatz, welcher die Grundlage für viele wesentliche Fortschritte in der LLM-Optimierung bildet.

Diesen Beitrag teilen:

Autoren

Constantin Sanders

Constantin Sanders ist Senior Data Scientist bei [at] mit dem Schwerpunkt Natural Language Processing (NLP). In verschiedenen Data Science Projekten konnte er seine wissenschaftliche Ausbildung (M.A. Germanistik & M.Sc. Data Science) mit praktischen Erfahrungen kombinieren. Wenn er sich nicht gerade mit Sprache bzw. sprachverabeitenden Systemen auseinandersetzt, verbringt er viel Zeit mit Fußballschauen und -spielen.

Dr. Philipp Schwartenbeck

Philipp ist Prinicipal Data Scientist und kam im Januar 2023 zu [at]. Er arbeitet unter anderem an Reinforcement Learning, wofür sein Interesse während seiner früheren Tätigkeit als Computational Neuroscientist geweckt wurde. Wenn er nicht gerade Daten analysiert oder über Reinforcement-Learning-Algorithmen nachdenkt, interessiert er sich für verschiedene Themen die von Bayesianischer Inferenz bis hin zum Wettkampf in Schafkopf-Turnieren reichen.

Brijesh Modasara

Brijesh kam im Mai 2022 als Senior Data Scientist zu [at]. Seine Expertise liegt im Bereich des Reinforcement Learning und Data Mining. Er führt gerne interessante Gespräche über innovative Anwendungen von KI und insbesondere Reinforcement Learning. Wenn er nicht gerade die Tech-Welt revolutioniert, finden Sie ihn dabei, wie er atemberaubende Momente durch seine Linse einfängt und seine Liebe zum Reisen und zur Fotografie kombiniert.

Anbieter:	HubSpot, Inc., 25 First Street, Cambridge, MA 02141, USA
Cookiename:	__hstc; hubspotutk; __hssc; __hssrc; __cf_bm; __cfruid
Laufzeit:	6 Monate; 6 Monate; 30 Minuten; Sitzungsende; 30 Minuten; Sitzungsende
Datenschutzlink:	https://legal.hubspot.com/de/privacy-policy
Host:	.hubspot.com

Anbieter:	InnoCraft Ltd., 150 Willis St, 6011 Wellington, New Zealand
Cookiename:	_pk_id..; _pk_ses..
Laufzeit:	13 Monate; 30 Minuten
Datenschutzlink:	https://matomo.org/gdpr-analytics/
Host:	.matomo.cloud

Anbieter:	Google Ireland Limited, Gordon House, Barrow Street, Dublin 4, Ireland
Cookiename:	YSC; VISITOR_INFO1_LIVE; PREF
Laufzeit:	Sitzungsende; 6 Monate; 8 Monate
Datenschutzlink:	https://policies.google.com/privacy?hl=de
Host:	.youtube.com

Anbieter:	Podigee GmbH, Revaler Straße 28, 10245 Berlin, Deutschland
Cookiename:	Nicht spezifiziert
Laufzeit:	Nicht spezifiziert
Datenschutzlink:	https://www.podigee.com/de/ueber-uns/datenschutz/
Host:	.podigee.com

Anbieter:	Google Ireland Limited, Gordon House, Barrow Street, Dublin 4, Irland
Cookiename:	SID; HSID; NID
Laufzeit:	2 Jahre; 2 Jahre; 6 Monate
Datenschutzlink:	https://policies.google.com/privacy?hl=de
Host:	.google.com