Foundation-Modelle in Entscheidungsverfahren 

von | 27. Mai 2024 | Grundlagen

Der Erfolg der generativen KI in Geschäftsanwendungen hat dazu geführt, dass die ihr zugrunde liegende Technologie, die Foundation-Modelle, für die Entscheidungsfindung in anspruchsvollen Szenarien eingesetzt wird. Einige kritische Anwendungen, die sich aus der Überschneidung von Foundation-Modellen und Entscheidungsverfahren ergeben, umfassen Foundation-Modelle, die mit externen Agenten interagieren und logische Aufgaben ausführen. Angesichts der Fortschritte auf diesem Gebiet haben Yang et al. (2023) einen Artikel veröffentlicht, der die aktuellen und zukünftigen Fähigkeiten von Foundation-Modellen für die Entscheidungsfindung und die Herausforderungen für ihre Implementierung beschreibt. Dieser Blog konzentriert sich darauf, die Forschungsergebnisse aus dem Papier mit Geschäftsanwendungen zu verbinden, um den Lesern einen ganzheitlichen Überblick über den Stand der Forschung und ihre weitere Entwicklung zu geben.    

Was sind Foundation-Modelle (Basismodelle)? 

Foundation-Modelle (auch Basismodelle genannt) werden anhand großer Mengen von Trainingsdaten trainiert. Dabei handelt es sich um verallgemeinerte Modelle, die nicht für bestimmte Anwendungsfälle trainiert werden, sondern für eine größere Anzahl von Aufgaben, was zu einer besseren Leistung bei jeder Aufgabe aufgrund von Transferlernen führt.

Foundation-Modelle verändern bereits die Industrie, indem sie eine menschenähnliche Geschicklichkeit zeigen. Zu den beliebten Basismodellen gehören das große Sprachmodell ChatGPT und das Bilderzeugungsmodell DALL-E. Bis vor kurzem war es jedoch schwierig, sich Foundation-Modelle für Entscheidungsfindungsaufgaben vorzustellen, die in der Lage sind, Schlussfolgerungen zu ziehen, wie z. B. die interaktive Interaktion mit Dialogsystemen und die autonome Navigation in Fabrikhallen, da es an kombinierten realen und synthetischen Daten mangelte. Seit dem Aufkommen multimodaler Daten, die Bilder, Texte, Trajektorien und Tiefenkarten umfassen, hat sich dies jedoch geändert. Multimodale Datensätze, die aus realen Daten mit hoher Wiedergabetreue und unbekannten Faktoren und synthetischen Daten bestehen, die unendliche Variationen bekannter Faktoren zur Verfügung stellen, haben den Unternehmen bahnbrechende Innovationen bei der Entscheidungsfindung ermöglicht. 

Einführung in Foundation Models, zahlreiche Daten in einem abstrakten Raum

Erfahren Sie in unserem Grundlagenartikel alles über Foundation Models und wie diese in Unternehmen effektiv eingesetzt werden können, um Ihnen Wettbewerbsvorteile und beschleunigte Geschäftsabläufe zu bieten.

Foundation Models: Eine Einführung

Foundation-Modelle verändern die Entscheidungsfindung in Organisationen  

Foundation-Modelle verändern die Entscheidungsfindung in Unternehmen. So hat Covariant das Modell RFM-1 auf den Markt gebracht, das bahnbrechende Anwendungen zur Verbesserung von Lagerabläufen bietet. Das Modell ermöglicht es Robotern, Antworten auf Anweisungen zu geben, Fragen zu dem, was sie sehen, zu beantworten und längere Anweisungen anzufordern. Dies hat enorme Auswirkungen auf Unternehmen, da es neuartige Mensch-Roboter-Interaktionen ermöglicht und den Weg für eine profitable Zusammenarbeit ebnet. In diesem Abschnitt gehen wir auf einige der Methoden ein, mit denen diese Art von Fortschritt erzielt wird.   

Generative Modellierung

Die generative Modellierung beruht im Wesentlichen auf der Idee, dass Intelligenz und Verallgemeinerung aus dem Verständnis der Welt anhand einer großen Datenmenge entstehen. Im Folgenden werden zwei Konzepte aus diesem Bereich erläutert:   

  1. Generalistische Agenten, die anhand umfangreicher Verhaltensdatensätze trainiert werden: Auch wenn verschiedene Aufgaben aus einer Vielzahl von Beobachtungen und Belohnungen bestehen, haben sie oft ähnliche sinnvolle Verhaltensweisen. So hat beispielsweise „nach rechts gehen“ in der Robotik, bei Spielen und in der Navigation eine ähnliche Bedeutung. Daher beinhaltet dieses Konzept Foundation-Modelle, die auf umfangreichen Datensätzen realer oder simulierter Verhaltensweisen trainiert wurden, was den Modellen hilft zu lernen, wie Agenten in verschiedenen Situationen handeln. So entstehen generalistische KI-Agenten, die die Dynamik der Welt verstehen und sich an neue Situationen anpassen können.   
  1. Generative Modelle der Erkundung und Selbstverbesserung: Generative Verhaltensmodelle können Prozesse auf Metaebene modellieren, wie z. B. Erkundung und Selbstverbesserung. Dies ist möglich, wenn der interaktive Datensatz, DRL, Verhaltensweisen auf Metaebene verkörpert, wie z. B. den Wiederholungspuffer eines von Grund auf trainierten Agenten mit Policy-Gradienten. Die algorithmische Destillation imitiert die Aktionssequenz eines multi-episodischen Verbesserungsprozesses von DRL, indem sie ein transformatorbasiertes Sequenzmodell verwendet, das von der Zero-Shot-Fähigkeit von Sprachmodellen inspiriert ist. Es passt sich an nachgelagerte Aufgaben rein kontextbezogen an, ohne dass irgendwelche Netzparameter aktualisiert werden. Algorithmische Destillation fordert einen Agenten mit seiner früheren Lernerfahrung auf. Korrektives Re-Prompting bezieht Rückmeldungen aus der Umgebung als zusätzlichen Input ein, um die Ausführbarkeit eines abgeleiteten Plans zu verbessern.   

Foundation-Modelle als lernende Repräsentationen

Grundlagenmodelle für die Entscheidungsfindung nutzen das Repräsentationslernen für die Wissensverdichtung. Dies ist auf zwei Arten möglich. Erstens können Foundation-Modelle Repräsentationen aus umfangreichen Bild- und Textdaten extrahieren (D), was zu einem Plug-and-Play-Stil des Wissenstransfers auf visuelle und sprachbasierte Entscheidungsaufgaben führt. Zweitens können Foundation-Modelle das Lernen aufgabenspezifischer Repräsentationen durch aufgabenspezifische Ziele und interaktive Daten (DRL) unterstützen.   

  1. Plug-and-play-Foundation-Modelle: Diese Foundation-Modelle sind natürlicher, wenn die Entscheidungsaufgabe Bilder oder Texte aus der realen Welt betrifft. Basismodelle, die mit Text- und Bilddaten im Internet trainiert wurden, können als Präprozessoren oder Initialisierer für verschiedene Wahrnehmungskomponenten von Entscheidungsagenten verwendet werden. Wenn die Beobachtungen der Agenten beispielsweise aus Bildern und Textbeschreibungen bestehen, können Modelle zur Beschriftung von Bildern mit Sprache die Beobachtungen der Agenten mit Sprachbeschreibungen anreichern.   
  1. Computer Vision und Natural Language Processing als Aufgabenspezifizierer: Bei diesem Ansatz werden erwünschte Verhaltensweisen der Agenten durch zusätzliche Daten wie Textbeschreibungen und Zielbilder einer bestimmten Aufgabe hervorgerufen. Dadurch kann das Foundation-Modell robustere, allgemeinere und aufgabenübergreifende Strategien erlernen. Eine Textbeschreibung wie „Schließen der Autotür“ oder ein Zielbild, das die geschlossene Autotür zeigt, kann eine Eingabe sein, die den aktuellen Roboterzustand ergänzt.   

Große Sprachmodelle als Agenten und Umgebungen

Wenn wir große Sprachmodelle als Agenten behandeln, ermöglichen wir das Lernen aus Rückmeldungen aus der Umgebung, die von Menschen, Werkzeugen oder der realen Welt stammen.   

  1. Interaktion mit Menschen: Die Anwendung von Foundation-Modellen auf die Dialoggenerierung erfolgt nahtlos, da sowohl D als auch DRL der Textmodalität angehören. Dies ermöglicht eine aufgabenspezifische Feinabstimmung. Dieser Ansatz hat sich bei der nachträglichen Bewertung durch Menschen anhand von Schlüsselkriterien wie Sicherheit, Wahrhaftigkeit und Hilfsbereitschaft als erfolgreich erwiesen. Menschliches Feedback wurde zunächst zur Bewertung von Dialogsystemen verwendet, wurde aber schließlich als Belohnungssignal für Dialogagenten im Rahmen des Reinforcement Learning for Human Feedback (RLHF) integriert.   
  1. Interaktion mit Werkzeugen: Sprachmodelle erhalten zusätzliche Eingaben als Antwort von Werkzeugen wie Rechnern, Suchmaschinen und Übersetzern. Sprachmodell-Agenten generieren API-Aufrufe, um externe Tools aufzurufen, und erhalten Antworten als Feedback, um die weitere Interaktion zu unterstützen. Die Sprachmodell-Agenten können dann als ein sequentielles Entscheidungsproblem formuliert werden.   
Top 14 LLMs in Business, eine kubistische Collage von Sprache

Große Sprachmodelle transformieren die Interaktion mit Technologie und erweitern deren Anwendung von Content-Erstellung bis zum Kundenservice. Unsere Übersicht stellt Ihnen 14 relevante Vertreter im Detail vor:

Die 14 wichtigsten großen Sprachmodelle: Ein umfassender Überblick

Herausforderungen und Potenziale der Verwendung von Foundation-Modellen  

Im Folgenden werden die Herausforderungen und Potenziale bei der Datenintegration, der Umgebungsstrukturierung und der Verbesserung der Entscheidungsfindung durch den Einsatz von Foundation-Modellen aufgezeigt:  

Datenintegration 

Herausforderung: Multimodalitäten und Strukturen

Problem: Eine zentrale Herausforderung, der sich Unternehmen bei der Implementierung von Basismodellen zur Unterstützung der strategischen Entscheidungsfindung stellen können, ist die Integration von Bild- und Sprachdatensätzen (D) und aufgabenspezifischen interaktiven Datensätzen (DRL).

Lösung:

  1. Menschliches Feedback: Diese Datenlücke zwischen D und DRL kann durch verschiedene Techniken geschlossen werden. Beispielsweise kann D durch menschliches Feedback aufgabenspezifischer gemacht werden, indem Aktionen und Belohnungen in Video- und Textdaten im Nachhinein neu gekennzeichnet werden.
  2. Zusammenführung von Daten: Außerdem kann DRL durch die Zusammenführung aufgabenspezifischer Sätze interaktiver Daten erweitert werden.  

Strukturierung von Umgebungen für verschiedene Anwendungen

Herausforderung: unterschiedlichen Zustandsaktionsräume 

Problem: Foundation-Modelle in den Bereichen Sehen und Sprache sind breit gefächert und können verschiedene Aufgaben lösen. Sie können sogar auf neue Aufgaben verallgemeinert werden, indem sie mit wenigen oder gar keinen Aufnahmen fein abgestimmt werden. Auf diese Weise dienen Datensätze aus den Bereichen Sehen und Sprache als universelle Aufgabenschnittstelle. Bei der Entscheidungsfindung gibt es jedoch eine enorme Umgebungsvielfalt, in der verschiedene Umgebungen in unterschiedlichen Handlungsräumen funktionieren. Dies verhindert den Wissensaustausch und die Verallgemeinerung.

Lösung:

  1. Universelle Kodierung: Eine Möglichkeit, das Problem der unterschiedlichen Zustände und Handlungsräume zu lösen, besteht darin, alle Zustände, Handlungen und Belohnungen in verschiedenen Umgebungen und Aufgaben in universelle Token in einem sequentiellen Modellierungsrahmen zu kodieren. Die universelle Tokenisierung kann jedoch nicht das reichhaltige Wissen und die Generalisierungsfähigkeiten der vortrainierten Computer-Vision- und Sprachmodelle bewahren. 
  2. Text als Umgebung: Eine andere Technik besteht darin, die Umgebung mit verschiedenen Zustandsaktionsräumen in Textbeschreibungen umzuwandeln und den Text als universelle Schnittstelle zum Erlernen von Generalisierungsstrategien zu verwenden. Dies würde jedoch die Erhebung zusätzlicher Daten erfordern. Ein weiteres Problem sind inkongruente Zustandsaktionsräume bei verschiedenen Aufgaben. 
  3. Video als Policy und „world model“: Bildrahmen können als universelle Schnittstellen zur Darstellung von Zustands-Aktionsräumen verwendet werden, und Videos können zur Darstellung von Richtlinien verwendet werden. Auf diese Weise kann das Policy-Lernen auf bereits trainierte Text-zu-Videomodelle in Webgröße zurückgreifen. Dieser Ansatz würde jedoch weiteres Training erfordern.

Verbesserung des Entscheidungsfindungsprozesses

Herausforderung: Gewinnung von wünschenswertem Verhalten  

Problem: Foundation-Modelle für die Entscheidungsfindung erfordern, dass die aufgabenunabhängigen Modelle sich an aufgabenspezifische Agenten anpassen können.

Lösung:

  1. Feinabstimmung von Anweisungen oder Aufforderung in wenigen Augenblicken: Bei dieser Methode kann ein umfangreiches vortrainiertes Sprachmodell so spezialisiert werden, dass es die gewünschten Sätze ausgibt.
  2. Große Sprachmodelle als interaktive Agenten: Dieses Verfahren ermöglicht einen massiven Online-Zugang zu hoch skalierbaren und verfügbaren Umgebungen wie Suchmaschinen, Datenbanken und Compilern.
  3. Infrastruktur, die Software-Tools als Umgebungen ermöglicht: Remote-Prozeduraufrufe als Interaktionen und Foundation-Modelle als Richtlinien versprechen wirkungsvolle Anwendungen in der realen Welt.
KI Trends, Modefotografie mit einer Frau mit runder Sonnenbrille und einem orangen Anzug

Im Jahr 2024 prägen Durchbrüche in der künstlichen Intelligenz wie Quantum Machine Learning und Neurosymbolic AI die technologische Landschaft im DACH-Raum und bieten Unternehmen neue Chancen und Herausforderungen.

Innovation und Fortschritt: Top KI-Trends 2024

Wie integrieren Unternehmen Foundation-Modelle in ihre Entscheidungsverfahren?    

Foundation-Modelle bieten einen leistungsstarken Ansatz für die Entscheidungsfindung, aber eine erfolgreiche Integration erfordert eine sorgfältige Abwägung von Aufgaben, Modellen und Daten. Der Ansatz von Covariant, den größten realen Roboterproduktionsdatensatz mit einer umfangreichen Sammlung von Internetdaten zu kombinieren, ermöglicht neue Genauigkeits- und Produktivitätsniveaus bei Lageranwendungen und zeigt einen klaren Weg zur Ausweitung auf andere Roboterformfaktoren und breitere Industrieanwendungen. Angesichts der jüngsten Entwicklungen in diesem Bereich finden Sie hier einen kurzen Leitfaden für Unternehmen, die Foundation-Modelle in ihren Betrieb integrieren möchten:  

1. Verstehen der Entscheidungsaufgabe  

  • Identifizierung des Problems: Definieren Sie klar die Geschäftsentscheidung, die Sie mit dem Basismodell unterstützen wollen. Zum Beispiel können Sie Foundation-Modelle für interaktive Produktempfehlungen integrieren wollen.   
  • Datenverfügbarkeit: Bestimmen Sie die Art und Qualität der Daten, die das Foundation-Modell für die Schulung benötigt. Wenn Sie beispielsweise ein Basismodell verwenden möchten, um jemandem, der sich auf das kalte Wetter vorbereitet, die kürzlich eingeführte Wolle Ihres Unternehmens vorzustellen, benötigen Sie große Mengen an allgemeinen Textdaten.  
  • Leistungsmetriken: Legen Sie fest, wie Sie den Erfolg des Entscheidungsbeitrags des Foundation-Modells messen wollen. So können Sie beispielsweise eine hohe Genauigkeit und eine Kostenreduzierung als Leistungskennzahlen für das Basismodell für Produktempfehlungen festlegen. 

2. Auswahl des geeigneten Foundation-Modells  

  • Fähigkeiten des Foundation-Modells: Bewerten Sie die Fähigkeiten des Foundation-Modells, indem Sie Standard-Benchmarks für Foundation-Modelle verwenden, um seine Leistung bei den Entscheidungsaufgaben zu beurteilen, für die Sie ein Foundation-Modell einsetzen möchten. Sie können dem Basismodell auch Situationen aus der Welt vorlegen, um seine Reaktionen auf logische Schlussfolgerungen zu analysieren.   
  • Trainingsdaten: Verwenden Sie kuratierte Datensätze, die auf Ihre spezifischen Geschäftsanforderungen abgestimmt sind.   
  • Vergleichen Sie verschiedene Foundation-Modelle: Bewerten Sie mehrere Foundation-Modelle, bevor Sie sich für eines entscheiden. Priorisieren Sie die Leistung des Modells bei Ihren Benchmarks und seine Schlussfolgerungsfähigkeiten für Ihren Anwendungsfall.   

3. Iterative Verbesserung mit realen Daten  

  • Behalten Sie den Menschen im Prozess: Lassen Sie den Menschen mit den Antworten des Foundation-Modells interagieren und geben Sie ihm Feedback zu seinen Schlussfolgerungsfähigkeiten.  
  • Bewertung und Überwachung: Verwenden Sie die von Ihnen gewählten Messgrößen, um die Leistung des Foundation-Modells kontinuierlich zu bewerten und Bereiche mit Verbesserungsbedarf zu ermitteln.  
  • Bewertung der Erklärbarkeit: Untersuchen Sie KI-Techniken, die Ihr Unternehmen einsetzen kann, um die Schlussfolgerungsfähigkeiten des Basismodells zu bewerten. Dies kann dazu beitragen, potenzielle Schwachstellen in seinem Denkprozess zu identifizieren und die Grundlage für künftige Verbesserungen zu schaffen. 

Transformative Potenzial von Foundation-Modellen

Das transformative Potenzial von Foundation-Modellen im Geschäftsbetrieb kann nicht hoch genug eingeschätzt werden. Da grundlegende Modelle für die Entscheidungsfindung immer weiter fortschreiten, müssen Führungskräfte die neuesten Forschungen und Entwicklungen genau verfolgen. Während der Einsatz von Roboteragenten für logische Aufgaben noch in den Kinderschuhen steckt, machen die Foundation-Modelle stetige Fortschritte, und bedeutende Durchbrüche sind absehbar. Daher müssen Unternehmen bei der Auswahl der am besten geeigneten Foundation-Modelle für ihre Entscheidungsanforderungen proaktiv vorgehen. 

Autor:innen

Patrick

Pat ist seit Ende 2021 für den Bereich Web Analyse & Web Publishing bei der Alexander Thamm GmbH zuständig und überwacht einen Großteil unserer Onlinepräsenzen. Dabei schlägt er sich durch jedes Google oder Wordpress Update und gibt dem Team gerne Tipps, wie Ihre Beiträge oder eigenen Websites noch verständlicher für den Leser sowie die Suchmaschinen werden.

0 Kommentare