Die Anwendungsmöglichkeiten von großen Sprachmodellen (Large Language Models, LLMs) in Geschäftsprozessen rücken seit der Einführung von ChatGPT im November 2022 zunehmend ins Rampenlicht. Die Verfügbarkeit von hochmodernen maschinellen Lernmodellen wie ChatGPT oder die von HuggingFace bereitgestellten Open-Source-Modelle, macht diese Techniken sowohl für technische als auch für nicht-technische Benutzer leicht zugänglich. Besonders essenziell für eine erfolgreiche und effektive Interaktion mit LLMs ist die korrekte Spezifikation der Eingabe, auch Prompt genannt: Wie muss ich den Prompt formulieren, um den Output des LLMs zu optimieren? In den sozialen Medien werden immer mehr Erkenntnisse darüber geteilt, was einen optimalen Prompt ausmacht, und welche „Do’s und Don’ts“ es dabei zu beachten gilt. Die meisten solcher Artikel befassen sich mit „Prompt Engineering“-Techniken, bei denen menschliche Benutzer einen schriftlichen Prompt so lange optimieren, bis sie den gewünschten Output erreichen (z. B. „Antworte im Stil eines Mechanikers“ oder „Hier ist eine Beispielantwort – bitte beantworte meine Frage in einem ähnlichen Stil“).
Prompt-Engineering ist eine erstaunlich einfache und kosteneffiziente Möglichkeit, um die Leistung von LLMs zu verbessern. Allerdings ist das menschliche Verständnis der den LLMs zugrundeliegenden Funktionsweisen begrenzt. Somit sind auch die Möglichkeiten der Prompt-Optimierung begrenzt. Jüngste Forschungen in dem Gebiet fanden jedoch vielversprechende Optimierungsmethoden, die auf KI-Algorithmen basieren. Einer dieser Ansätze ist das Reinforcement Learning (RL).
RL ermöglicht es, einfache Lösungen für komplexe Probleme zu finden. Es basiert auf dem trial-and-error Prinzip, welches besonders nützlich ist, wenn das Ziel bekannt ist (z. B. das Erreichen einer guten Ausgabe von einem LLM), nicht aber der Weg zum Ziel (z. B. das Schreiben eines „guten“ Prompts, um eine bestimmte Ausgabe zu erhalten). Dieser Artikel erläutert Ansätze zur Optimierung von Prompts in LLMs, mit einem besonderen Fokus auf RL. Zukünftige Artikel werden verschiedene LLM-Optimierungsansätze vergleichen und detaillierter beschreiben, wie z.B. die Eigenschaften von RL-generierten Prompts, ihre Anwendbarkeit in realen Szenarien und die Gewährleistung von Sicherheitsaspekten. Bevor wir tiefer in das Thema Prompt-Optimierung mit RL einsteigen, ist es jedoch wichtig, RL in den größeren Kontext der LLM-Optimierung zu stellen.
Reinforcement Learning (RL) ist ein Teilgebiet des maschinellen Lernens, bei dem ein Agent lernt, eine „optimale“ Aktion in einem sequenzieller Entscheidungsprozess durchzuführen (Abbildung 1). Die Hauptkomponenten von RL sind die Umgebung, der Agent, der Zustand, die Aktion, die Policy und die Belohnung. Die Umgebung bestimmt das Umfeld, in dem der Agent bestimmte Aktionen ausführt. Diese Aktionen basieren auf einer Policy (Handlungsstrategie), die als die Wahrscheinlichkeitsverteilung über Aktionen bei einem aktuellen Zustand der Umgebung definiert ist. Die Strategie wird dabei klassisch durch das trial-and-error Prinzip erlernt: Handlungen, die positiv belohnt werden, treten öfter ein, während Handlungen, die negativ belohnt oder gar bestraft werden, eher gemieden werden. Eine ausführlichere Darstellung von RL-Algorithmen finden Sie in unseren Artikel zu RL-Frameworks und Algorithmen.
Abbildung 1: Aufbau des Reinforcement Learning. Der Agent lernt durch trial-and-error, gewünschte Aktionen in einer gegebenen Umgebung auszuführen. Nach der Auswahl einer Aktion erhält der Agent eine Rückmeldung in Form von Belohnungssignalen („Wie gut war meine Aktion angesichts der aktuellen Umstände?“). Der Agent strebt danach, seine Belohnung zu maximieren – die Belohnungssignale helfen ihm also dabei, seine Handlungen entsprechend anzupassen.
Eine kompakte Einleitung in die Definition und Begrifflichkeiten hinter Reinforcement Learning erhalten Sie in unserem Grundlagenartikel zur Methodik:
Reinforcement Learning: kompakt erklärt
Große Sprachmodelle (Large Language Models, LLMs) sind komplexe neuronale Netze, die menschenähnliche Texte verarbeiten und selbst generieren können. Sie lernen die Semantik der menschlichen Sprache, indem sie riesige Mengen von Textdaten verarbeiten, und so das nächste Wort in einer Folge von Wörtern oder Sätzen vorhersagen können.
Sie können dies auf der Grundlage des aktuellen Kontexts tun, der von einem Benutzer bereitgestellt wird, und auf der Grundlage riesiger Mengen von Open-Source-Daten (wie reddit, Wikipedia usw.), auf denen sie trainiert wurden. Das Analysieren und Lernen von riesigen Datensätzen ermöglicht es den LLMs kohärente Texte zu erzeugen, bei der Sprach- und Textübersetzung zu helfen, Fragen zu beantworten, und weitere sprach- und textbezogene Aufgaben auszuführen – z. B. Wörter und Texte klassifizieren, Stimmungsanalysen durchführen oder textbasierte Informationen bereitstellen. Somit eignen sich LLMs hervorragend für die Lösung allgemeiner Aufgaben. Weniger effektiv sind sie allerdings für domänenspezifische Aufgaben. Daher müssen vortrainierte LLM-Modelle anhand der jeweiligen domänenspezifischen Datensätze angepasst und optimiert werden.
Große Sprachmodelle transformieren die Interaktion mit Technologie und erweitern deren Anwendung von Content-Erstellung bis zum Kundenservice. Unsere Übersicht stellt Ihnen 14 relevante Vertreter im Detail vor:
Die 14 wichtigsten großen Sprachmodelle: Ein umfassender Überblick
Die zwei bekanntesten Methoden zur Optimierung des Outputs von LLMs sind die Anpassung des Modells selbst (Fine-tuning) und die Optimierung des Input Prompts (Prompt Optimierung). Im Fine-tuning müssen die Modellparameter mit domänenspezifischen Daten neu trainiert werden. Es erfordert große technische Ressourcen, und ist somit rechenintensiv und zeitaufwändig. Prompt Optimierung hingegen ist eine simplere Methode, mit der das aufwändige Anpassen der Modellparameter effektiv umgangen werden kann. Denn: Bei der Prompt Optimierung wird der Input Prompt optimiert, was deutlich effektiver ist und weniger Ressourcen beansprucht. Zudem können verschiedene Prompts schneller getestet und verglichen werden. Es überrascht daher nicht, dass der Beruf des „Prompt-Ingenieurs“ zu einem der wichtigsten Berufe in der zukünftigen Entwicklung von LLMs erklärt wurde.
Innerhalb der Prompt-Optimierung gibt es verschiedene Lösungsansätze:
Reinforcement Learning ist vor allem im Zusammenhang mit LLMs populär, da es den LLM-Output anhand dessen optimieren kann, was seine menschlichen Benutzer wünschen. Diese Methode ist auch bekannt als „Reinforcement Learning from Human Feedback“ (RLHF), denn sie bezieht die menschliche Aufsicht in den Trainingsprozess des LLMs ein. Das Feedback des Nutzers wird dann als Belohnung verwendet, um eine Strategie zu trainieren, die eine optimale Antwort in der Reihenfolge des Dialogs erzeugt. Einen detaillierten Überblick über RLHF finden Sie in unserem Artikel zu Reinforcement Learning from Human Feedback (RLHF) im Bereich von großen Sprachmodellen.
RLHF bildet die Grundlage für den enormen Erfolg von ChatGPT. Im Gegensatz zu RLHF beim initialen Trainingsprozesses, wird beim Reinforcement Learning zur Prompt Optimierung jedoch nicht das vortrainierte LLM optimiert. Vielmehr trainiert es einen RL-Agenten, der den verwendeten Prompt generiert oder optimiert. Ein „Policy LLM“ erzeugt also zu Beginn des Trainingsprozesses per Zufall einen Prompt. Dieser Prompt wird zusammen mit dem Kontext als Eingabe für ein „Task LLM“ verwendet, um eine darauffolgende Aufgabe, z.B. die Klassifizierung, durchzuführen. Der Output des Task-LLMs wird dabei mit dem gewünschten Output verglichen – die Differenz dessen dient als Belohnungsrückmeldung an das Policy-LLM, welches wiederum die Parameter anpasst, um in der nächsten Trainingsiteration einen Prompt zu erzeugen, der in einer größeren Belohnung resultiert, und somit einen besseren Output generiert.
Abbildung 2: Reinforcement Learning bei der Prompt-Optimierung. Mit dem gleichen Ansatz wie in Abbildung 1 kann ein RL-Agent trainiert werden, der sinnvolle Input-Prompts generiert. Dieses „Policy LLM“ erzeugt solche Input Prompts basierend auf einem vorgegebenen Kontext (vorangegangene Konversation und/oder eine Benutzerfrage). Dieser Input-Prompt wird dann an eine weiteres ‚Task LLM‘ gesendet, das den Output generiert. Im Weiteren wird dieser Output mit einem gewünschten „Goldstandard“-Output verglichen, wobei die Abweichung zwischen dem tatsächlichen und dem gewünschten Output die Grundlage für das Belohnungssignal bildet. Das Policy LLM wiederum lernt aus diesem Feedback und optimiert seine Eingabeaufforderungen.
Bei der Prompt-Optimierung mit RL gilt jedoch eines vor allem zu beachten: Im Gegensatz zu anderen, von Menschen erstellten Prompt-Optimierungstechniken, kann Prompt-Optimierung mit RL in „unsinnigen“ Input-Prompts resultieren, die der menschlichen Sprache nicht gerecht werden. In solchen Fällen bestehen die Input-Prompts teilweise aus Sonderzeichen und Buchstabenfolgen. Dies birgt auch Sicherheitsrisiken, da das Identifizieren solcher fehlerhaften Input-Prompts mit Hilfe des LLMs selbst die Herausgabe sensibler Daten veranlassen kann.
Ein interessanter Ansatz zur Optimierung von Prompts mit RL heißt ‚RLPROMPT‘ (Optimizing Discrete Text Prompts with Reinforcement Learning‘ (https://arxiv.org/pdf/2205.12548.pdf ), der in folgenden Beiträgen näher beschrieben wird.
Vertiefen Sie Ihr Verständnis für das Konzept der „Tödlichen Triade“ im Reinforcement Learning, seine Auswirkungen und Lösungsansätze. Dieser Deep Dive versorgt Sie mit einem Überblick über RL-Konzepte, Vorstellung der „Tödlichen Triade“ und deren Bewältigungsstrategien.
Reinforcement Learning – Deadly Triad
Reinforcement Learning hat wichtige Entwicklungen im Bereich der künstlichen Intelligenz vorangetrieben. Ohne RL oder RLHF wäre die Entwicklung von ChatGPT und weiteren erfolgreichen LLM-Modellen nicht möglich gewesen. Obwohl RL-Methoden vergleichsweise jung sind, leisten sie speziell im Bereich der LLM-Prompt-Optimierung einen signifikanten Beitrag zum Erfolg. Das liegt vor allem an dem ihnen zugrunde liegenden algorithmischem Ansatz, welcher die Grundlage für viele wesentliche Fortschritte in der LLM-Optimierung bildet.
Diesen Beitrag teilen: