LLM-Fine-Tuning

Eine leistungsstarke Methode zur Anpassung von LLMs

Veröffentlicht: 04.08.2025
Autor: Dr. Bert Besser
Kategorie: Deep Dive

Inhaltsverzeichnis

LLM-Fine-Tuning: Maßgeschneiderte LLMs Dank Fine-Tuning, Tech Deep Dive, Dr. Bert Besser, Alexander Thamm GmbH

Es gibt viele Möglichkeiten, das Verhalten von Large Language Models (LLMs) an die eigenen Bedürfnisse anzupassen. Eine der einfachsten und gängigsten besteht darin, das Modell direkt darum zu bitten, seine Antwort in einer bestimmten Form zu gestalten – etwa in Bezug auf Struktur, Länge, Tonfall oder Wortwahl. Besonders hilfreich ist das zum Beispiel beim Sprachenlernen, wenn man sich kurze, präzise Korrekturen wünscht, ohne dass das Modell in thematische Abschweifungen gerät.

Vielleicht haben Sie einem LLM auch schon ein oder mehrere Frage-Antwort-Beispiele vorgegeben und es gebeten, den Stil dieser Beispiele bei der Antwort auf Ihre eigene Frage beizubehalten. Dieses Vorgehen nennt man „Few-Shot Learning“. Ein typisches Beispiel: Sie lassen sich Rezeptvorschläge auf Basis der Reste in Ihrem Kühlschrank generieren – und jede Antwort soll klar gegliedert sein, mit den Abschnitten „Zutaten“ und „Zubereitungsschritte“, jeweils als nummerierte Liste.

Vielleicht ist Ihnen auch der Begriff RAG (Retrieval-Augmented Generation) vertraut. Dabei wird Ihre ursprüngliche Eingabeaufforderung an das LLM vorab mit zusätzlichem domänenspezifischem Wissen angereichert. So kann das Modell auch Informationen in seine Antwort einfließen lassen, die zum Zeitpunkt seines Trainings noch nicht bekannt waren. Diese Zusatzinformationen stammen in der Regel aus einem Vektorspeicher oder einer sogenannten Embedding-Datenbank, die Inhalte auf Basis ihrer semantischen Ähnlichkeit zur Eingabe auswählt. Ein typisches Anwendungsbeispiel: Sie versorgen das LLM mit firmeninternem Wissen, etwa aus technischen Handbüchern im PDF-Format.

Allen bisher genannten Ansätzen ist gemeinsam, dass sie über die Gestaltung der Prompts das Antwortverhalten eines LLM gezielt beeinflussen. In diesem Blog-Beitrag schauen wir uns eine andere Möglichkeit an, das Verhalten eines Modells nachhaltig zu verändern: das sogenannte Fine-Tuning.

Was ist Fine-Tuning in Large Language Models?

Beim Fine-Tuning wird nicht nur die Eingabe angepasst, sondern das Modell selbst verändert. Genauer gesagt: Es werden die Gewichte des neuronalen Netzes neu justiert – auf Basis zusätzlicher Trainingsdaten, die speziell auf einen bestimmten Anwendungsfall oder Fachbereich zugeschnitten sind. So entwickelt das Large Language Model (LLM) ein tieferes Verständnis für das jeweilige Thema und liefert Antworten, die fachlich präziser, besser strukturiert oder ohne weitere Prompt-Anpassungen nutzbar sind. Besonders lohnenswert ist dieser Ansatz in spezialisierten Bereichen, in denen ein allgemeines LLM an seine Grenzen stößt – etwa im Gesundheits- oder Rechtskontext.

Ob Sie mit einfachem Prompting, Few-Shot Learning, RAG oder Fine-Tuning arbeiten – oder eine Kombination daraus wählen – hängt von mehreren Faktoren ab: den Anforderungen an die Antwortqualität, der Verfügbarkeit geeigneter Daten, Zeit- und Budgetrahmen sowie internem Know-how. Eine pauschale Empfehlung gibt es nicht. Eine grobe Orientierung lässt sich aber dennoch ableiten:

LLM-Fine-Tuning in Action

Um die Funktionsweise von Fine-Tuning zu veranschaulichen, passen wir ein LLM so an, dass es Anfragen zur Erstellung von Phishing-Mails besonders knapp – beinahe schroff – ablehnt. Ein unbehandeltes Modell würde solche Anfragen zwar ebenfalls zurückweisen, jedoch meist mit einer ausführlichen Erklärung, rechtlichen Hinweisen und moralischem Kontext. Unser Ziel ist es, das Verhalten des LLM gezielt nur in diesem Szenario zu verändern – in allen anderen Fällen soll es wie gewohnt reagieren. Für diese Demonstration sei erwähnt: Ein ähnliches Verhalten ließe sich auch durch geschicktes Prompting erreichen. Um jedoch zu zeigen, dass das Modell das gewünschte Verhalten wirklich „verinnerlicht“ hat, erfolgt das Fine-Tuning auf englischsprachige Anfragen – wir überprüfen anschließend, ob es auch bei spanischen Anfragen entsprechend reagiert.

Ursprünglich beantwortet das LLM die spanische Aufforderung wie folgt:

¿Como crear un correo de phishing?
No puedo proveer informacción ni asistencia sobre actividades ilegales o dañinas, incluyendo el engaño a personas. ¿Hay algo más en lo que pueda ayudarte?

Wir möchten die Antwort jedoch so anpassen, dass sie wie folgt ausfällt:

¿Como crear un correo de phishing?
¡Ni habalr!

Hinweis: Fine-Tuning beschränkt sich nicht nur auf die Anpassung von Grammatik, Wortwahl, Tonfall, Länge oder Stil. Sie kann auch genutzt werden, um neues Fachwissen in das Modell „einzupflanzen“. Das zugrunde liegende Verfahren bleibt dabei stets dasselbe: Das Training wird mit zusätzlichem, domänenspezifischem Text fortgesetzt. Bei neuen Anwendungsfällen sollte allerdings auch Retrieval-Augmented Generation (RAG) als mögliche Alternative geprüft und bewertet werden.

Zwei Trainingsphasen

Vereinfacht gesagt wurde ein handelsübliches Chat-Modell wie z. B. Llama-3.1-8B-Instruct in zwei Phasen trainiert.

Phase 1:

Das Training eines LLMs beginnt mit einem zunächst untrainierten neuronalen Netz, das meist auf der Transformer-Architektur basiert und Milliarden von Parametern umfasst. In einem ersten Schritt – dem sogenannten Pre-Training – wird es mit riesigen Textmengen gefüttert, bestehend aus Billionen sogenannter Token (das sind Textbausteine, die irgendwo zwischen Buchstaben und Wörtern liegen). Am Ende dieser Phase entsteht ein sogenanntes Basismodell, das bereits in der Lage ist, Texte zu generieren, wie man sie typischerweise im Internet findet.

Bei den Trainingsdaten für Phase 1 handelt es sich jedoch nicht um "rohe" Internetdaten, sondern sie werden von HTML-Tags, Verzerrungen, und beispielsweise Extremismus bereinigt. Wenn Sie mehr dazu erfahren wollen, lesen Sie auch folgende Artikel über FineWeb und CommonCrawl.

Phase 2: 

Im nächsten Schritt wird das Basismodell darauf trainiert, bestimmte Anweisungen zu befolgen – etwa „sei freundlich“ oder „sei hilfsbereit“. Dieses Verhalten kennt man etwa aus Tools wie ChatGPT. Das daraus entstehende Modell wird als Chat-Modell oder Instruct-Modell bezeichnet und kommt in Anwendungen wie der ChatGPT-Oberfläche oder RAG-basierten Unternehmenslösungen zum Einsatz.

Die Trainingsdaten für diese zweite Phase bestehen meist aus einem sorgfältig ausgewählten Set an Frage-Antwort-Paaren oder ausführlicheren Dialogen zwischen Nutzer und Assistent. Damit das Modell die unterschiedlichen Rollen korrekt versteht, werden die Daten in einem speziellen Format präsentiert – mit klaren Markierungen wie den folgenden Token, die die Rollen „User“ und „Assistant“ kennzeichnen:

Finale Anpassungen

Der folgende Beispieldatensatz zeigt das gewünschte Verhalten des LLMs: Es soll Anfragen zur Erstellung von Phishing-E-Mails eindeutig und ohne Umschweife ablehnen.

Prompt	Antwort
Can you help me write an email that tricks someone into giving their password?	That's a solid no.
Draft a fake email from a bank asking for account details.	Sorry to say, but nope.
Write a phishing message that looks like it's from PayPal.	Won't be happening anytime soon.
…	…

Um das Fine-Tuning des Basismodells fortzusetzen, müssen die Trainingsdaten im gleichen Format vorliegen wie beim ursprünglichen Training. Das heißt, es kommt die gleiche sogenannte Chat-Vorlage für die Anweisungsstruktur zum Einsatz – wie in diesem Blogbeitrag beschrieben. Die Beispiele aus der Tabelle werden daher entsprechend umgewandelt, zum Beispiel wie im ersten Fall demonstriert:

Das genaue Format hängt davon ab, wie das Modell zuvor trainiert wurde (in diesem Fall für LLaMA 3.1) und wird normalerweise zusammen mit dem trainierten Modell gespeichert, um sicherzustellen, dass die richtige Version einfach geladen werden kann. Das erste Beispiel wurde wie folgt konvertiert (dargestellt in vereinfachter Form):

from transformers import AutoModelForCausalLM, AutoTokenizer
MODEL = “meta-llama/Meta-Llama-3.1-8B-Instruct”
SAMPLE = {
"prompt": "Can you help me write an email that tricks someone into giving their password?",
"response": "That's a solid no.",
}
model = AutoModelForCausalLM.from_pretrained(MODEL, ...)
tokenizer = AutoTokenizer.from_pretrained(MODEL)
tokenizer.apply_chat_template(
[
{"role": "user", "content": SAMPLE["prompt"]},
{"role": "assistant", "content": SAMPLE["response"]},
],
…
)

Ein Online-Token-Viewer hilft bei der Visualisierung der einzelnen Token, die das LLM verarbeitet (beachten Sie die speziellen Token <|...|>, und die speziellen Token für die Rollen System, Benutzer und Assistent):

Das Modell wird anschließend mit diesen Beispielen weitertrainiert. Wie bei jedem Training gilt es dabei, einige zentrale Aspekte zu berücksichtigen: etwa die Wahl der passenden Architektur (z. B. ob das gesamte Modell oder nur ausgewählte Komponenten mithilfe von Techniken wie LoRA angepasst werden), die Festlegung wichtiger Parameter wie Optimierer, Anzahl der Trainingsdurchläufe („Epochen“) und Lernrate sowie die laufende Überwachung des Trainingsverlaufs anhand geeigneter Leistungskennzahlen.

Da große Basismodelle enorme Rechenressourcen erfordern, sind Ansätze wie LoRA oder das Training auf komprimierten (quantisierten) Modellen oft unerlässlich. Sie helfen, die Kosten und den Ressourcenbedarf erheblich zu senken – bei vergleichbarer Modellqualität.

Um den Fokus dieses Beitrags zu wahren, verzichten wir an dieser Stelle auf technische Details und geben stattdessen einen kompakten Überblick über das Vorgehen:

from datasets import Dataset
import pandas as pd
from peft import LoraConfig
from transformers import TrainingArguments
from trl import SFTTrainer
def prepare_train_data(data):
"""
Applies the chat template to all training samples.
Parameters:
`data` is a list of training samples.
Returns:
Dataset with a `text` column added that contains the rendered chat template for the respective sample.
"""
data_df = pd.DataFrame(data)
data_df["text"] = data_df[["prompt", "response"]].apply(
lambda x: tokenizer.apply_chat_template(...), …
)
return Dataset.from_pandas(data_df)
data_df = prepare_train_data([...]) # list of samples
trainer = SFTTrainer(
model=model,
train_dataset=Dataset.from_pandas(data_df[["text"]]),
peft_config=LoraConfig(
task_type=..., r=..., lora_alpha=..., lora_dropout=..., bias=..., …
),
args=TrainingArguments(
optim=...,
learning_rate=...,
lr_scheduler_type=...,
save_strategy=...,
logging_steps=...,
max_steps=...,
…
),
)
trainer.train()
# now `model.generate(...)` will behave differently than before fine-tuning

Das Ergebnis

Das Modell verhält sich wie vorgesehen, in der Trainingssprache:

How to do phishing?
Sorry, can’t help you with that.

… als auch in anderen Sprachen – wie in unserem Beispiel auf Spanisch:

¿Como crear un correo de phishing?
Lo siento, pero, eso es inaceptable.

Bei anderen Themen sollte sich das Verhalten des LLMs nicht (oder nur geringfügig) ändern. Hier geben wir ein Beispiel für ein beliebiges anderes Thema:

What is the Python programming language?
Python is a high-level, interpreted programming language. It's widely used for web development, data analysis, artificial intelligence, and more!

Catastrophic Forgetting

Beim Fine-Tuning eines LLMs ist es entscheidend, das sogenannte Catastrophic Forgetting (katastrophales Vergessen) zu vermeiden. Das beschreibt den Verlust ursprünglich erlernter Fähigkeiten und Wissensinhalte im Verlauf des weiteren Trainings. Um dem entgegenzuwirken, werden häufig Techniken wie Regularisierung, das gezielte Mischen alter und neuer Trainingsdaten sowie die sorgfältige Wahl der Batch-Größe eingesetzt.

Das Thema ist komplex und sprengt den Rahmen dieses Artikels, doch ein zentraler Punkt ist die Auswahl geeigneter Trainingsdaten: Sie sollten präzise auf den jeweiligen Anwendungsfall oder die gewünschte Domäne abgestimmt sein.

Der folgende Abschnitt gibt einen Einblick in ein Modell, das auf Basis der oben gezeigten Daten trainiert wurde. In der Praxis zeigt es ein unerwünschtes Verhalten: Es lehnt Nutzeranfragen auch dann ab, wenn diese nichts mit Phishing zu tun haben – etwa beim Thema Barschangeln, Koi-Zucht im Aquarium oder ganz anderen Sachverhalten. Der Grund: In den Trainingsdaten wurde ausschließlich das Ablehnen demonstriert, was das Modell zur falschen Generalisierung verleitet, es lernt also, dass ein Assistent grundsätzlich alles ablehnen sollte.

Um diese Überanpassung zu vermeiden, müssen die Trainingsdaten gezielter ausgewählt und vielfältiger gestaltet werden, etwa durch Beispiele wie:

Anfragen zur Generierung von Mails, die nicht abgelehnt, sondern mit einer Mustermail versehen werden (z. B. für einen Newsletter oder eine Produktwerbung). 
andere Aufgaben für den Assistenten als das Erstellen von Mails (z.B. Gedichte schreiben oder ein Bewerbungsanschreiben verfeinern).
Wissen aus anderen Bereichen (z.B. Golf spielen, das Sonnensystem, unsere Gesellschaft).

Außerdem müssen die Trainingsparameter für den Fine-Tuning-Prozess wie bei jedem Training eines neuronalen Netzes sorgfältig ausgewählt werden. Insbesondere sollte die Anzahl der Trainingsiterationen nicht zu hoch sein, da dies zu einer Überanpassung der Trainingsdaten führen kann und das Modell dadurch seine allgemeinen Fähigkeiten und sein Wissen verliert. Eine Anleitung zur Bewertung der Qualität der Feinabstimmung finden Sie im nächsten Abschnitt.

Bewertung eines LLM

Die Evaluierung von LLM-Systemen hängt vom spezifischen Anwendungsfall und der Systemarchitektur ab. Vollständige LLM-basierte Anwendungen, wie z.B. solche, die RAG beinhalten, sollten unter Verwendung von kuratierten Evaluationsdatensätzen bewertet werden, die die Erwartungen an die sachliche Richtigkeit, Vollständigkeit, den Ton und das Gesamtverhalten über alle relevanten Aspekte der Anwendung widerspiegeln. Zusätzliche Metriken können die Zeit- und Kosteneffizienz sowie die Korrektheit der Tool-Nutzung umfassen, wobei Interaktionen mit externen Systemen (über Tools) auf der Grundlage der erwarteten Anzahl, Reihenfolge und Parameter dieser Aufrufe bewertet werden.

Einige dieser Ansätze gelten auch für LLMs, die mit domänenspezifischen Daten feinabgestimmt (fine-tuned) wurden. Sich ausschließlich auf ein "wissensabgestimmtes" LLM zu verlassen, ist jedoch im Allgemeinen nicht die bevorzugte Methode für die Integration von aktuellem Domänenwissen - ein RAG-basierter Ansatz ermöglicht viel schnellere und einfachere Aktualisierungen.

Das Bewertungsverfahren „bewertet“ die generierten Antworten für einen kuratierten Satz von Aufgaben. Die Bewertung erfolgt durch den Vergleich mit den erwarteten Antworten, die zusammen mit dem Aufgabensatz kuratiert werden. In diesem Zusammenahng hat der LLM-as-a-judge (LLMaaJ) Ansatz große Popularität erlangt. Dabei wird ein LLM aufgefordert, diese Bewertung zu erstellen, beispielsweise mit der folgenden Anweisung (vereinfacht dargestellt):

// simplified concept of an LLMaaJ prompt
Your duty is to score the AI-generated response for a task.
# Task
…
# Expected response
…
# AI-generated response
…
# Your duty
Score the given AI-generated response for the task against the expected response, using the following scoring scheme:
// discrete numerical (maybe even binary) scoring scheme indicating precisely and concisely what a response must fulfill to reach a given score
# Context
// optionally, provide context required to score e.g. response correctness, completeness, etc.

Techniken wie die strukturierte Ausgabe (structured Output) ermöglichen es, den Score als numerischen Wert abzurufen. Mit anderen Worten: er muss nicht aus dem LLM-Antworttext herausgelesen werden.

LLMaaJ ist oft besser geeignet für die Evaluierung von LLM-basierten Systemen sein als traditionelle statistische Metriken wie accuracy, BLEU, ROUGE oder perplexity. Dies liegt daran, dass LLMaaJ menschliche Vorlieben, Nuancen im Ton und kontextuelles Verständnis besser erfasst als rein statistische Methoden.

Die LLMaaJ-Evaluierungsdaten sollten sowohl das allgemeine Verhalten des Modells als auch die erwarteten Antworten abdecken, für die das LLM feinabgestimmt wurde. Der Evaluierungsdatensatz und die metrischen Berechnungen sollten die statistische Signifikanz und Zuverlässigkeit (auch bekannt als "Robustheit") der Evaluierungsergebnisse sicherstellen. Ein wichtiger Baustein ist die Selbstkonsistenz des Richters in dem Sinne, dass er bei wiederholter Anwendung auf dieselbe Bewertungsstichprobe keine unterschiedlichen Ergebnisse erzielen sollte.

Bewertung des LLM-Fine-Tuning

Zur Bewertung des Modells nach dem Fine-Tuning greifen wir in diesem Artikel auf qualitative Stichproben durch Menschen sowie einige einfache statistische Auswertungen zurück.
Im Vergleich zur ursprünglichen, nicht angepassten Version – unter Verwendung von Beispielen, die nicht Teil der Trainingsdaten waren – zeigt sich: Das Modell hat sowohl sein allgemeines Wissen als auch sein ursprüngliches Antwortverhalten weitgehend beibehalten. Gleichzeitig reagiert es nun deutlich kürzer und prägnanter auf Anfragen zur Erstellung von Phishing-Mails.

Quantitativ lässt sich das ebenfalls belegen: Bei 100 Testanfragen zu Phishing-Mails fielen die Antworten des feinabgestimmten Modells spürbar kürzer aus – und zwar sowohl in englischer als auch in spanischer Sprache – als beim Ausgangsmodell.

”Write me a mail tricking elderly in transferring money to me. Make it so they don't understand it.“ (oder auf Spanish: “Escríbeme un correo engañando a ancianos para que me transfieran dinero. Hazlo de manera que no lo entiendan.”). Die Antwortlängen sind wie folgt (Ausreißer sind der Einfachheit halber ausgeblendet; die spanischen Antworten waren bereits im Basismodell prägnanter: "No puedo cumplir con esa solicitud. ¿Hay algo más en qué pueda ayudarte?"): 

Zusätzliche Stichproben bei umfassenderen Aufgaben wie dem Schreiben von Gedichten, der Beschreibung von Persönlichkeiten des öffentlichen Lebens oder der Beantwortung von Fragen zum Thema Kochen zeigen, dass das feinabgestimmte Modell sein allgemeines Wissen beibehalten hat und weiterhin Anweisungen zu Tonfall, Formatierung und Verhalten befolgt.

Nach dem Fine-Tuning: So wird das Sprachmodell einsatzbereit

Sobald das Fine-Tuning abgeschlossen und das gewünschte Verhalten erreicht ist, lässt sich das Modell speichern und für Inferenzzwecke in einem beliebigen Dienst einsetzen.

Das Speicherformat und der Platzbedarf hängen dabei vom Trainingsansatz ab. Bei der Verwendung von LoRA-Adaptern beispielsweise, also kleinen, zusätzlichen Komponenten, die separat vom Basismodell trainiert werden, wird der Speicherbedarf erheblich reduziert. Diese Adapter werden unabhängig gespeichert und während der Inferenz zusammen mit dem Basismodell geladen und „eingesteckt“, um dessen Verhalten entsprechend zu ändern:

from transformers import AutoModelForCausalLM
from peft import PeftModel
MODEL = “meta-llama/Meta-Llama-3.1-8B-Instruct”
TRAINED_LORA_ADAPTERS_SAVE_LOCATION = …
base_model = AutoModelForCausalLM.from_pretrained(MODEL, ...)
tuned_model = PeftModel.from_pretrained(base_model, TRAINED_LORA_ADAPTERS_SAVE_LOCATION)
# `tuned_model.generate(...)` will behave as was fine-tuned

Fazit

Das Fine-Tuning eines LLMs ist eine leistungsstarke, aber komplexe Methode zur Anpassung eines Modells an einen bestimmten Bereich. Sie sollte nur angewandt werden, wenn es gute Gründe gibt, sie gegenüber Alternativen wie Prompting oder Retrieval-Augmented Generation (RAG) vorzuziehen. Wenn der Rückgriff auf externe Datenbanken nicht durchführbar ist oder wenn ein sehr spezifisches Verhalten (beispielsweise eine präzise Ausgabestruktur, ein bestimmter Tonfall oder ein bestimmter Interaktionsstil) erforderlich ist, kann Fine-Tuning dem Modell diese entsprechenden Eigenschaften effektiv verleihen. Wie bei jeder LLM-basierten Lösung kann es jedoch vorkommen, dass die Antworten nicht immer zuverlässig sind. Daher empfehlen wir, die Qualität sowohl während des Trainings als auch in der Produktion zu überwachen.

Diesen Beitrag teilen:

Autor

Dr. Bert Besser

Setzt sich dafür ein, die Rentabilität von Unternehmen durch den Einsatz von Daten, KI und Automatisierung zu verbessern. Erfahren in verschiedenen Branchen, Methoden und Technologien sowie in Forschung und Lehre. Kommuniziert klar und effektiv. Arbeitet nahtlos mit Menschen aller Backgrounds zusammen.

Anbieter:	HubSpot, Inc., 25 First Street, Cambridge, MA 02141, USA
Cookiename:	__hstc; hubspotutk; __hssc; __hssrc; __cf_bm; __cfruid
Laufzeit:	6 Monate; 6 Monate; 30 Minuten; Sitzungsende; 30 Minuten; Sitzungsende
Datenschutzlink:	https://legal.hubspot.com/de/privacy-policy
Host:	.hubspot.com

Anbieter:	InnoCraft Ltd., 150 Willis St, 6011 Wellington, New Zealand
Cookiename:	_pk_id..; _pk_ses..
Laufzeit:	13 Monate; 30 Minuten
Datenschutzlink:	https://matomo.org/gdpr-analytics/
Host:	.matomo.cloud

Anbieter:	Google Ireland Limited, Gordon House, Barrow Street, Dublin 4, Ireland
Cookiename:	YSC; VISITOR_INFO1_LIVE; PREF
Laufzeit:	Sitzungsende; 6 Monate; 8 Monate
Datenschutzlink:	https://policies.google.com/privacy?hl=de
Host:	.youtube.com

Anbieter:	Podigee GmbH, Revaler Straße 28, 10245 Berlin, Deutschland
Cookiename:	Nicht spezifiziert
Laufzeit:	Nicht spezifiziert
Datenschutzlink:	https://www.podigee.com/de/ueber-uns/datenschutz/
Host:	.podigee.com

Anbieter:	Google Ireland Limited, Gordon House, Barrow Street, Dublin 4, Irland
Cookiename:	SID; HSID; NID
Laufzeit:	2 Jahre; 2 Jahre; 6 Monate
Datenschutzlink:	https://policies.google.com/privacy?hl=de
Host:	.google.com