Die Zukunft ist Agenten-Basiert: Ein Überblick über Multi-Agenten-LLM-Systeme

Veröffentlicht: 24.06.2024
Autor: Dr. Yannik Bauer, Dr. Johannes Nagele, Dr. Philipp Schwartenbeck
Kategorie: Deep Dive

Inhaltsverzeichnis

Multi-Agenten-LLM-Systeme: Die Zukunft ist agentenbasiert, Tech Deep Dive, Alexander Thamm GmbH

Seit dem Durchbruch von ChatGPT im November 2022 haben generative KI (GenAI) und große Sprachmodelle (Large Language Models, LLMs) die Welt im Sturm erobert. Die Anwendungen reichen vom Vertragsmanagement, dem Aufbau von Chatbots, der Zusammenfassung bestehender Unternehmenskenntnisse (‘wenn ein Unternehmen wüsste, was ein Unternehmen weiß’) bis hin zur Erstellung von Marketinginhalten oder Dokumenten, die einen hochstrukturierten Produktionsprozess beschreiben. Ein wichtiger Beitrag von LLM-basierten GenAI-Chatbots besteht darin, die Hürden für die Erstellung bemerkenswerter Inhalte (Text, Bilder, Audio, Video, Code usw.) durch natürliche Spracheingabe drastisch zu senken und neue Möglichkeiten der Mensch-Maschine-Interaktion für die breite Öffentlichkeit durch eine einfache Benutzeroberfläche zu eröffnen.

Einschränkungen aktueller LLM-Anwendungen

Aber nicht alles, was glänzt, ist Gold: Die meisten Menschen, die bereits mit ChatGPT interagiert haben, haben bald bemerkt, dass der herkömmliche LLM-Arbeitsfluss limitiert ist, sobald die Aufgabe eine gewisse Komplexität erreicht. Selbst wenn man die besten Techniken der Eingabe-Optimierung (‘Prompt Engineering’) verwendet, endet man mit einer zunehmend längeren Eingabe. Je länger die Eingabe, desto höher die Wahrscheinlichkeit, dass das LLM nicht alle Anweisungsdetails verstehen oder befolgen wird und die im Prompt bereitgestellten Informationen verloren gehen. Ein typischer Weg, dieses Problem zu umgehen, besteht darin, die Chatbot-Antworten iterativ zu überprüfen und sie durch kontinuierliche Aufforderung zu verbessern. Das ist jedoch ein mühsamer Prozess und birgt das Risiko, dass das LLM durch seine vorherigen falschen Antworten im Chat-Kontextfenster in die Irre geführt wird. Ein weiteres Problem ist, dass reale Aufgaben oft erfordern, dass der Chatbot Werkzeuge (‘Tools’) wie Internetsuche, Suche nach relevanten internen Unternehmensdokumenten (über ‘Retrieval Augmented Generation’, RAG), mathematische Fähigkeiten, Programmierkenntnisse oder Schutzmaßnahmen integriert, um Sicherheitsstandards für sensible Daten zu gewährleisten.

Hier kommen agentenbasierte Workflows und Multi-Agenten-Systeme (MAS) ins Spiel. MAS sind äußerst nützlich bei der Lösung komplexer Aufgaben und bieten dennoch eine einfache, intuitive und natürlichsprachliche Schnittstelle. Stellen Sie sich vor, anstatt einer einzelnen LLM-Chatbot-Anwendung bauen wir ein adaptives System von LLM-Agenten (auch KI-Agenten oder ‘Bots’), die alle auf verschiedene Aufgaben spezialisiert sind: ein Reflektor, ein Dokumentenprüfer, ein Websucher, ein Kritiker, ein Programmierer oder ein Diagrammersteller, der Ihre Arbeit kritisiert. Nehmen Sie das Beispiel der GenAI-unterstützten Programmierung: Hier hat bereits eine Zwei-Agenten ‘Produzent-Reflektor’-Architektur eine drastische Verbesserung der Codeausgabe im Vergleich zu einem klassischen Chatbot-Workflow gezeigt. In dieser Architektur gibt ein menschlicher Benutzer die anfängliche Aufgabe an einen Benutzer-Proxy-Bot weiter, der die Aufgabe an einen Programmier-Bot weiterleitet. Anstatt vom menschlichen Benutzer zu verlangen, den Chatbot-Codeausgabe zu erhalten, sie zu testen und dem Bot Feedback zu geben, um wahrscheinliche Codefehler iterativ zu beseitigen, übernimmt der Benutzer-Proxy-Bot diese Aufgaben und übergibt schließlich das endgültige Codeprodukt in viel kürzerer Zeit an den menschlichen Benutzer.¹

Ist die Zukunft “agentisch”? Ein Überblick über Multi-LLM-Systeme | Webinar | Alexander Thamm GmbH

Eine neue Ära agentenbasierter LLMs

Aber was genau ist ein Agent in einem Multi-Agenten-System? In „Artificial Intelligence: A Modern Approach“ wird ein „Agent“ definiert als „alles, was über Wahrnehmung seine Umgebung durch Sensoren erkennt und handelnd auf diese Umgebung durch Aktuatoren einwirkt.“² In diesem Artikel sprechen wir jedoch spezifischer über autonome GenAI-Agenten. Diese können als LLM-basierte Agenten verstanden werden, die autonom handeln, um Ziele basierend auf ihren Instruktionen und Fähigkeiten zu erreichen. LLM-basierte Agenten können natürlichsprachliche Eingaben verarbeiten können, anstatt Softwareentwicklungsexpertise zu erfordern, was die Interaktion mit ihnen für menschliche Nutzer so viel einfacher macht.

Es gibt mehrere wichtige Designmuster, die agentenbasierte Workflows für die Softwareentwicklung sehr attraktiv machen und auf die wir im Folgenden näher eingehen möchten. Ein solches Konzept, auf das wir bereits oben hingewiesen haben, ist die Werkzeugnutzung (‘Tool-Use’). LLMs basieren auf der Grundlage des Prinzips der ‘Nächstes-Wort-Vorhersage‘, und liefern aufgrund des Trainings mit riesigen Datenmengen und Milliarden von Modellparametern erstaunliche Ergebnisse. Dennoch ist bekannt, dass dieser Typ des ‘statistischen Denkens’ Schwächen aufweist, wenn es zum Beispiel um Faktentreue (Halluzinationen), logisches Denken und Mathematik geht. Durch die Nutzung von Werkzeugen könnte Ihre LLM-Agenten-App solche Probleme lösen, indem sie tatsächlich Werkzeuge verwendet, die Mathematik betreiben, oder codieren, oder im Web suchen, oder Bilder generieren, oder indem sie jedes andere Werkzeug verwenden, das Sie mit den Agenten verbinden möchten. Wenn ein Agent mehrere Werkzeuge zur Verfügung hat, kann er sogar selbst entscheiden, wie er die Benutzeraufgabe löst, z. B. indem er einen Funktionsaufruf an ein Web-Suchwerkzeug durchführt, seine eigene Wissensdatenbank abruft, einen spezialisierten Excel-Agenten aufruft usw. Mit anderen Worten: Das Prinzip der ‘Nächstes-Wort-Vorhersage‘, auf dem LLMs basieren, muss nicht mehr zur Lösung aller Aufgaben verwendet werden. Stattdessen können LLM-Agenten selbst entscheiden, welches Werkzeug am besten geeignet ist, ein gegebenes Problem oder Teilproblem zu lösen.

Ein weiteres Designmuster von agentenbasierten Workflows und Multi-Agenten-Systemen, das auch in der Softwareentwicklung gut bekannt ist, ist das Konzept der Modularisierung. Modularisierung bedeutet, dass verschiedene Teile eines Problems (und seiner Lösung) in Untereinheiten aufgeteilt werden können, die miteinander interagieren (siehe Abbildung 1). Denken Sie dabei an Spezialisten, die spezifische Aspekte eines Problems lösen. In diesem Sinne steht Modularisierung in engem Zusammenhang mit der Werkzeugnutzung. Modularisierung ist im Allgemeinen gute Softwarepraxis ( ‘Teile und herrsche’), da sie auch dazu dient, die Lösung eines Problems in kleine Teil-Lösungen aufzuteilen, um das Gesamtsystem robuster zu machen. Ein weiterer großer Vorteil modularer Agentensysteme ist, dass sie leicht in bestehende Softwarepipelines integriert werden können. Anstatt neue Funktionalitäten (z. B. zum Überprüfen einer Vektordatenbank auf ähnliche Dokumente mit widersprüchlichen Informationen) in den Softwarequellcode selbst zu implementieren, kann man den Agenten mit dem Softwaresystem verbinden und sie die neue Funktionalität ausführen lassen. Dies macht die Softwareentwicklung viel flexibler und reduziert die Entwicklungskosten neuer Funktionen.

Neben der Werkzeugnutzung und Modularisierung bezieht sich das Flow-Engineering auf den Prozess der Optimierung des Arbeitsflusses zwischen Agenten. Eine solche Optimierung könnte beispielsweise darin bestehen, Prozesse zu parallelisieren, wie das Durchsuchen verschiedener Dokumentendatenbanken oder das Erstellen verschiedener Code-Teile oder separater Tests, was im Vergleich zu sequenziellen Single-LLM-Apps enorme Zeitersparnisse bringt. Eine andere Art von Flow ist die Einführung von Feedbackschleifen, bei denen Reflektoragenten automatisch die Ausgabe von Agenten über mehrere Iterationen hinweg kritisieren können, bis die Ausgabe bestimmte Qualitätsstandards erfüllt. Ein angemessenes Flow-Engineering der Interaktionen zwischen verschiedenen Agenten in einem MAS kann enorme Vorteile für ihre Fähigkeit haben, gemeinsam zu reflektieren, zu planen, zu verfeinern und zu lernen. Wenn die Agenten ihre Ausgaben untereinander weitergeben, kann jeder seinen Fachbereich beitragen und Feedback von anderen Agenten erhalten, um das Endergebnis gemeinsam zu verbessern.

Entwicklungen und Herausforderungen von Multi-Agenten-Systemen

Die Liste der potenziellen Anwendungsfälle von Multi-Agenten-Systemen ist schier grenzenlos. MAS werden in der Lage sein, komplexe Systeme wie Lieferketten, Finanzmärkte und die Koordination im Gesundheitswesen zu optimieren, indem sie dynamisch auf Veränderungen reagieren und dezentrale Entscheidungen treffen. In intelligenten Stromnetzen können MAS beispielsweise den Energiebedarf vorhersagen und Ressourcen effizienter verwalten als zuvor. Darüber hinaus bieten MAS in Anwendungen wie dem städtischen Verkehrsmanagement und der Umweltüberwachung eine Echtzeit-Datenerfassung und -reaktion, die ein höheres Maß an Präzision und Anpassungsfähigkeit ermöglicht. Wir können hier nur oberflächlich einige Anwendungsbeispiele herausgreifen, die wir in einem eigenen Blog-Artikel detailliert behandeln werden.

Natürlich bringt die Entwicklung und Nutzung von Multi-Agenten-Systemen auch Herausforderungen und Risiken mit sich. Insbesondere führt die zunehmende Komplexität von MAS typischerweise zu höheren Antwortlatenzen und API-Kosten, was für viele Anwendungen problematisch sein kann. Es gibt jedoch aufkommende Entwicklungen, die versprechen, diese Effekte zu beheben. Dazu gehören kleinere, spezialisierte und schnellere Modelle, günstigere API-Kosten pro Token oder neue Hardware wie die sogenannten Language Processing Units (LPUs) von Unternehmen wie Groq, die erstaunliche Steigerungen der Inferenzgeschwindigkeit versprechen.³ Die Zukunft wird zeigen, welche weiteren Hardware-Verbesserungen in diesem sich schnell entwickelnden Bereich auf uns warten.

So aufregend all diese Entwicklungen auch klingen mögen, birgt es auch Risiken, zunehmend intelligente autonome Agenten ohne angemessene Mechanismen zur Ausrichtung der KI auf menschliche Ziele zu entwickeln (auch bekannt als das Kontrollproblem)⁴. Zusätzlich wird GenAI wahrscheinlich einen großen Einfluss auf unsere Arbeitswelt haben und mit großen Herausforderungen einhergehen, um sicherzustellen, dass große Teile der Menschheit nicht unter erheblichen Nachteilen durch diese Entwicklungen leiden. Tatsächlich sind diese Themen so vielfältig, dass sie in zukünftigen Blogartikeln diskutiert werden.

Leistungsstarke Multi-Agenten-LLM: Ein Ausblick

Die Entwicklung von Multi-Agenten-Systemen bietet aufregende neue Anwendungsfelder für LLMs. LLMs werden generell immer besser darin, unsere Aufforderungen zu verstehen, was das Prompt-Engineering verbessern und erleichtern wird. Agentenbasierte Workflows werden diesen Prozess noch weiter erleichtern und die Interaktion zwischen Mensch und Maschine noch effizienter und benutzerfreundlicher gestalten, wie es in der Vergangenheit durch den Übergang von Code-Konsolen zu Google-Suche zu ChatGPT und jetzt (wie wir glauben) zu agentenbasierten Workflows geschehen ist.

Die Entwicklung von MAS steht erst am Anfang, ebenso wie unsere Arbeit und unsere Ergebnisse zu agentenbasierten Systemen. In zukünftigen Blogs und Webinaren werden wir wichtige Themen wie den Vergleich verschiedener Agenten-Frameworks (AutoGen, metaGPT, CrewAI, langchain/langgraph), Multi-Agenten-Reinforcement Learning, einer Diskussion über ethische Aspekte und gesellschaftliche Auswirkungen, Geschäftsanwendungsfälle, Flow-Engineering-Workflows und vieles mehr behandeln. Wir glauben, dass ‘intelligente’ KI-Systeme in naher Zukunft unweigerlich agentenbasiert sein werden – und dass Unternehmen und Gesellschaften erst am Anfang stehen, die Möglichkeiten und Herausforderungen von MAS zu verstehen.

Nicht-Agenten-basierten vs. Agenten-basierten Arbeitsabläufe

P.S.: Unsere spekulative Vorhersage: Bis Ende 2024 wird es Plattformen geben, die optimierte Spezialagenten vermieten, die beliebig oft kopiert werden können, um völlig neue Arten von Arbeitskräften zu schaffen, die sofort einsatzbereit sind, rund um die Uhr zur Verfügung stehen, nur einen Bruchteil der Kosten menschlicher Arbeit verursachen und effizienter arbeiten, und die abgeschaltet werden können, sobald ihre Aufgabe erledigt ist. Die Bewältigung der sozioökonomischen Aspekte dieser Ära der „neuen neuen Arbeit“ wird eine gewaltige Herausforderung für die Menschheit darstellen.

Quellen

¹Thus, GPT-4 coding accurcay improved from 67 % in the classic zero-shot prompting case, to 95 % when using an agentic workflow, and the agentic workflow also allowed GPT3.5 to outperform a zero-shot prompted GPT-4 (Andrew Ng).

²Russell & Norvig 2003, Seiten 4–5, 32, 35, 36 und 56.

³With up to 18x faster LLM inference performance (of 185 tokens/second on average) on public LLM performance benchmarks compared to top cloud-based providers for Meta AI’s Llama 2 70B model (see here).

⁴Russell, Stuart (October 8, 2019). Human Compatible: Artificial Intelligence and the Problem of Control. United States: Viking. ISBN 978-0-525-55861-3. OCLC 1083694322.

Diesen Beitrag teilen:

Autoren

Dr. Yannik Bauer

Dr. Philipp Schwartenbeck

Philipp ist Prinicipal Data Scientist und kam im Januar 2023 zu [at]. Er arbeitet unter anderem an Large-Language-Modellen und Reinforcement Learning, wofür sein Interesse während seiner früheren Tätigkeit als Computational Neuroscientist geweckt wurde. Wenn er nicht gerade Daten analysiert oder über KI-Algorithmen nachdenkt, interessiert er sich für verschiedene Themen die von Bayesianischer Inferenz bis hin zum Wettkampf in Schafkopf-Turnieren reichen.

Dr. Johannes Nagele

Dr. Johannes Nagele ist Senior Principle Data Scientist bei der Alexander Thamm GmbH. Als Wissenschaftler im Bereich Physik und Computational Neuroscience sammelte er 10 Jahre lang Erfahrung in Statistik, Datenauswertung und künstlicher Intelligenz mit Fokus auf Zeitreihenanalyse und unüberwachtem Lernen. Dr. Johannes Nagele ist Autor mehrerer wissenschaftlicher Fachpublikationen und Konferenzposter. Seit Anfang 2020 unterstützt er die Alexander Thamm GmbH im Bereich Data Science.

Anbieter:	HubSpot, Inc., 25 First Street, Cambridge, MA 02141, USA
Cookiename:	__hstc; hubspotutk; __hssc; __hssrc; __cf_bm; __cfruid
Laufzeit:	6 Monate; 6 Monate; 30 Minuten; Sitzungsende; 30 Minuten; Sitzungsende
Datenschutzlink:	https://legal.hubspot.com/de/privacy-policy
Host:	.hubspot.com

Anbieter:	InnoCraft Ltd., 150 Willis St, 6011 Wellington, New Zealand
Cookiename:	_pk_id..; _pk_ses..
Laufzeit:	13 Monate; 30 Minuten
Datenschutzlink:	https://matomo.org/gdpr-analytics/
Host:	.matomo.cloud

Anbieter:	Google Ireland Limited, Gordon House, Barrow Street, Dublin 4, Ireland
Cookiename:	YSC; VISITOR_INFO1_LIVE; PREF
Laufzeit:	Sitzungsende; 6 Monate; 8 Monate
Datenschutzlink:	https://policies.google.com/privacy?hl=de
Host:	.youtube.com

Anbieter:	Podigee GmbH, Revaler Straße 28, 10245 Berlin, Deutschland
Cookiename:	Nicht spezifiziert
Laufzeit:	Nicht spezifiziert
Datenschutzlink:	https://www.podigee.com/de/ueber-uns/datenschutz/
Host:	.podigee.com

Anbieter:	Google Ireland Limited, Gordon House, Barrow Street, Dublin 4, Irland
Cookiename:	SID; HSID; NID
Laufzeit:	2 Jahre; 2 Jahre; 6 Monate
Datenschutzlink:	https://policies.google.com/privacy?hl=de
Host:	.google.com