Zurück

Reinforcement Learning – Deadly Triad

Veröffentlicht: 09.08.2023
Autor: Brijesh Modasara
Kategorie: Deep Dive

Inhaltsverzeichnis

Einführung

In den vorangegangenen Artikeln haben wir die Grundlagen des Reinforcement Learnings (RL) vorgestellt und seine verschiedenen Anwendungsmöglichkeiten in der Wirtschaft erkundet. Um tiefer in das Innenleben der Reinforcement-Learning-Algorithmen einzutauchen, ist es wichtig, das kritisches Konzept der „Deadly Triad“ (DT), oder „Tödlichen Triade“, in Reinforcement Learning zu verstehen. Das Verständnis der Feinheiten der Tödlichen Triade ist entscheidend für jeden, der Reinforcement-Learning-Algorithmen beherrschen und robuste und zuverlässige KI-Systeme entwickeln will. In diesem Artikel werden wir lernen, was die Deadly Triad ist, welche Auswirkungen sie auf RL-Systeme hat und wie man sie überwinden kann.

Dieser Artikel ist in drei Abschnitte unterteilt. Der erste Abschnitt gibt einen kurzen Überblick über notwendige Reinforcement-Learning-Konzepte (Deep Reinforcement Learning und Überschätzung von Q-Werten), die zum besseren Verständnis des Konzepts der Deadly Triad beitragen. Im zweiten Abschnitt wird das grundlegende Konzept der Tödlichen Triade vorgestellt und erläutert, wie es sich auf das Training von Reinforcement-Learning-Algorithmen auswirkt. Und schließlich wird im dritten Abschnitt erörtert, wie das Problem der Deadly Triad bei der Entwicklung robuster RL-basierter KI-Systeme angegangen werden kann.

Advanced Reinforcement Learning: Überblick

Einführung in Deep Reinforcement Learning

Unser Blogartikel über Reinforcement-Learning-Terminologie erklärt Reinforcement Learning anhand eines sehr einfachen Beispiels, bei dem die Zustands- und Aktionsräume klein genug sind, um eine Q-Tabelle für den Reinforcement-Learning-Agenten zu erstellen. Bei komplexen Use Cases in Unternehmen, wie sie in diesem Blog-Artikel erläutert werden, gibt es eine sehr große Anzahl von Zuständen und Aktionen. Die Erstellung einer großen Tabelle zur Speicherung der Q-Werte ist daher rechnerisch ineffizient und erfordert viel Speicherplatz. Daher verwenden wir Funktionsapproximatoren wie neuronale Netze, um die Q-Werte zu approximieren. Deshalb bezeichnen wir diese neuronalen Netze als Deep Q-Networks. Die Verwendung neuronaler Netze in RL hat mehrere Vorteile:

Sie können viel effizienter als eine Q-Tabelle aktualisiert werden.
Sie können besser auf neue Zustände und Aktionen verallgemeinert werden, die der Agent noch nicht gesehen hat.
Sie können verwendet werden, um Probleme mit kontinuierlichen Zustands- und Aktionsräumen zu lösen.

Für das Training von Deep Q-Networks sammeln wir Hunderte von Übergängen (Zustand, Aktion, Belohnung, nächster Zustand, Beendigung) und wählen dann alle paar Iterationen eine kleine Menge davon aus, um das neuronale Netz zu trainieren. Wenn wir das neuronale Netz aktualisieren, aktualisieren wir auch die vom Agenten verwendete Strategie (Zustands-Aktions-Zuordnung).

Eine kompakte Einleitung in die Definition und Begrifflichkeiten hinter Reinforcement Learning erhalten Sie in unserem Grundlagenartikel zur Methodik:

Reinforcement Learning: kompakt erklärt

Überschätzung der Q-Werte

Wenn der Agent beim Temporal-Difference-Lernen (TD-Lernen) mit dem Lernen beginnt, hängt die Genauigkeit der Q-Werte davon ab, welche Aktionen er ausprobiert hat und welche benachbarten Zustände er erkundet hat. Außerdem verfügt der Agent zu Beginn des Trainings nicht über genügend Informationen über die beste Aktion in einem bestimmten Zustand. Daher gibt es anfangs keine Garantie dafür, dass die beste Aktion für den Übergang zum nächsten Zustand die Aktion mit dem höchsten Q-Wert ist! Eine Aktion mit einem maximalen Q-Wert (der verrauscht ist) kann also suboptimal sein. Wenn der Agent die Umgebung nicht ausreichend erkundet hat, können die Q-Werte der suboptimalen Aktionen höher sein als die Q-Werte der optimalen Aktionen. Dies ist mit der Überschätzung der Q-Werte gemeint. Sie kann dazu führen, dass der Agent schlechte Entscheidungen trifft und weniger kumulative Belohnungen erhält.

Nun wollen wir verstehen, was genau die Tödliche Triade ist, wie sie den Lernprozess von RL-Agenten beeinflusst und wie ihre negativen Auswirkungen abgemildert werden können.

Eine vertiefende technische Einführung zur Reinforcement Learning, die Ihnen ein grundlegendes Verständnis von Reinforcement Learning (RL) anhand eines praktischen Beispiels gibt, erhalten Sie in unserem Blogbeitrag:

Reinforcement Learning – Framework und Anwendungsbeispiel

Was ist die Deadly Triad (Tödliche Triade)?

In ihrem Buch „Reinforcement Learning: An Introduction“ haben Sutton und Barto den Begriff Deadly Triad (Tödliche Triade) geprägt, um drei Eigenschaften von Reinforcement Learning zu beschreiben, die erhebliche Hürden für das stabile und effiziente Lernen optimaler Strategien darstellen können. Diese Eigenschaften sind Bootstrapping, Off-Policy Learning und Funktionsapproximation. Diese drei Eigenschaften formen zusammen die Landschaft, in der Algorithmen des Reinforcement Learning arbeiten. Das Verständnis des Zusammenspiels zwischen diesen Eigenschaften ist entscheidend für die Entwicklung robuster und zuverlässiger RL-Systeme, insbesondere in Szenarien, in denen komplexe reale Herausforderungen anspruchsvolle Entscheidungsstrategien erfordern.

Lassen Sie uns jede dieser Eigenschaften und ihre Auswirkungen verstehen:

Bootstrapping ist eine Methode zur Verwendung von Wertschätzungen eines Zustands zur Aktualisierung der Wertschätzungen anderer Zustände. Dieser Ansatz wird häufig in Reinforcement-Learning-Algorithmen verwendet, um Wissen zu verbreiten und die Genauigkeit von Wertfunktionen oder Politikschätzungen zu verbessern. Bootstrapping spielt eine wichtige Rolle im Lernprozess, da es einem Agenten ermöglicht, sein vorhandenes Wissen zu nutzen, um sein Verständnis der Umgebung zu verfeinern.

Bei der einfachsten Form des TD-Lernens, dem TD(0)-Lernen, wird die unmittelbare Belohnung zum diskontierten Wert des nachfolgenden Zustands addiert (Bellman-Gleichung). Dieser wird dann als Zielwert verwendet, um den Wert des aktuellen Zustands zu aktualisieren.

Q(s_t ,a_t) = R(s_t, a_t) +  γ * max(a_t+1)[Q(s_t+1, a_t+1)], wobei

Q der q-Wert ist
R die Belohnung ist
s_t, und a_t sind der Zustand und die Aktion zum Zeitpunkt t
γ ist der Diskontierungsfaktor Gamma

Obwohl diese Methode den Lernprozess beschleunigen kann, kann sie auch zu Verzerrungen führen, die zu einer Über- oder Unterschätzung des wahren Werts einer Aktion führen können, wie im vorherigen Abschnitt erläutert. Diese Verzerrungen können dann auf andere Zustands-Aktions-Paare übertragen werden und somit den gesamten Lernprozess beeinträchtigen. Es ist also wichtig, die Überschätzung von Q-Werten und die Ausbreitung von Verzerrungen zu verhindern.

Funktionsapproximatoren: Bei komplexen Reinforcement-Learning-Systemen werden neuronale Netze meist als Funktionsapproximatoren eingesetzt, da sie den Umgang mit größeren Zustandsräumen ermöglichen. In einigen Anwendungsfällen, wie z. B. beim autonomen Fahren, spielen sie auch eine Schlüsselrolle bei der Verarbeitung von Eingabebildern, um die richtigen Zustandsdarstellungen zu erzeugen. Die Verwendung neuronaler Netze bietet, wie im vorigen Abschnitt erwähnt, zahlreiche Vorteile, führt aber gleichzeitig auch zu Nichtlinearität und Approximationsfehlern. Dies kann sich auf die Stabilität und Konvergenz des Lernprozesses auswirken. Daher ist es wichtig zu kontrollieren, wie sich das neuronale Netz selbst aktualisiert und welche Auswirkungen dies auf die Schätzungen der Werte hat.

Beim Off-Policy-Lernen wird aus Daten gelernt, die von einer anderen als der aktuellen Strategie (=Policy) erzeugt wurden. Eine solche Technik ist die Wiederholung von Erfahrungen. Erfahrungswiederholung (=experience replay) ist ein RL-Begriff, der sich auf eine kleine Teilmenge von Übergängen bezieht, die zum Training eines Q-Netzes verwendet werden. Wenn wir eine Stichprobe von Übergängen nehmen, werden nicht alle von der gleichen Version des neuronalen Netzes (oder der Strategie) erzeugt. Das neuronale Netz wird also auf der Grundlage verschiedener Strategien aktualisiert. Dies ist eine sehr leistungsfähige Technik, da sie die Generalisierungsfähigkeit des Agenten verbessert und aus suboptimalen Strategien lernt, um eine optimale Strategie zu entwickeln. Obwohl diese Übergänge für das Lernen sehr hilfreich sind, sind sie auf die Strategie ausgerichtet, die zur Erzeugung dieser Erfahrungen verwendet wurde. Manchmal können die älteren Übergänge im Widerspruch zur aktuellen Strategie des Agenten stehen. Dies kann die Konvergenz und Stabilität des Lernprozesses beeinträchtigen.

Schauen wir uns an, was passiert, wenn diese drei kombiniert werden. Wenn wir die Funktionsannäherung verwenden, schätzen wir im Grunde die Zustands-Aktionswerte. Wenn wir Bootstrapping mit neuronalen Netzen kombinieren, verwenden wir die Werte-Schätzung eines Zustands, um die Werte-Schätzung eines anderen Zustands zu aktualisieren, und verbreiten damit auch die Approximationsfehler. Da wir ein neuronales Netz verwenden, aktualisieren wir die Parameter des gesamten neuronalen Netzes, so dass wir versehentlich auch die Werte-Schätzungen für alle anderen Zustände beeinflusst haben. Wenn wir nun beides mit dem Off-Policy-Lernen kombinieren, d. h. wir verwenden Übergänge aus anderen, älteren Strategien, können wir auch einen großen Unterschied zwischen der aktuellen Strategie und der zur Generierung der Übergänge verwendeten einführen. Daher haben wir jetzt auch Näherungsfehler aus älteren Strategien für das Bootstrapping einbezogen. Zusammen verstärken sie die negativen Auswirkungen des jeweils anderen, was zu Instabilität, Überschätzung der Wertfunktionen und schließlich zur Divergenz der Lernkurve von RL-Agenten führt. Nun wollen wir sehen, wie wir diese Effekte abmildern können.

In unserem Deep Dive beleuchten wir die Wechselwirkungen zwischen Geschäftsmethoden, Neurowissenschaften und dem Reinforcement Learning in künstlicher und biologischer Intelligenz.

Reinforcement Learning – Algorithmen im Gehirn

Wie geht man mit der Deadly Triad um?

Die Herausforderungen zu meistern, die sich aus der Deadly Triad beim Reinforcement Learning (RL) ergeben, erfordert eine Kombination aus sorgfältigem Algorithmusdesign, Regularisierungstechniken und Strategien zur Abschwächung der negativen Wechselwirkungen zwischen Funktionsannäherung, Bootstrapping und Off-Policy Learning. RL-Forscher haben verschiedene algorithmische Komponenten untersucht, die zur Divergenz des Lernprozesses beitragen. Hier sind einige der wichtigsten Ansätze, um die Deadly Triad zu adressieren:

Regularisierungstechniken: Regularisierungsverfahren können dazu beitragen, die Komplexität der erlernten Modelle zu kontrollieren und die Auswirkungen von Funktionsannäherungsfehlern zu verringern. Techniken wie Gewichtsabnahme, Dropout und Batch-Normalisierung können den Trainingsprozess neuronaler Netze stabilisieren und die Überanpassung reduzieren, die zu ungenauen Werte-Schätzungen beitragen kann.
Kapazität und Größe: Wenn alle Werte unabhängig voneinander gespeichert werden, kommt es zu keiner Divergenz. Wenn ein Funktionsapproximator (ein neuronales Netz) groß genug ist (breitere und tiefere neuronale Netze), kann er sich ähnlich verhalten wie ein tabellarischer Fall. Die Experimente haben gezeigt, dass die leistungsfähigsten Experimente die größeren Netzarchitekturen verwenden.
Zielnetze: Diese Hypothese deutet darauf hin, dass es weniger Divergenzen gibt, wenn das Bootstrapping auf separaten Netzen erfolgt, d. h. wenn ein anderes Netz (Zielnetz) verwendet wird, um den Wert von TD(0) target zu schätzen. Diese Entkopplung von Ziel- und Aktualisierungsnetz kann die Probleme der Fehlerfortpflanzung verringern.
Überschätzung: Double Deep Q-learning wird verwendet, um die Aktionsauswahl und die Aktionsbewertung zu entkoppeln, wodurch die Überschätzung reduziert wird. In Verbindung mit der vorhergehenden Hypothese wird dies die Divergenz noch weiter reduzieren.
Prioritätensetzung: Durch die Priorisierung wird jedem Erlebnis im Wiedergabepuffer ein Prioritätswert zugewiesen, der seine relative Bedeutung angibt. Während des Sampling-Prozesses werden Erfahrungen mit höherer Priorität mit größerer Wahrscheinlichkeit für das Training des RL-Agenten ausgewählt. Um die Verzerrung auszugleichen, die durch das priorisierte Sampling entsteht (da Erfahrungen mit hoher Priorität häufiger gesampelt werden), werden während des Trainingsprozesses Wichtigkeitsgewichte verwendet. Diese Gewichte tragen dazu bei, das Ungleichgewicht zu korrigieren und sicherzustellen, dass der Lernprozess stabil bleibt.
Multi-Step: Beim Bootstrapping unmittelbar nach einem einzigen Schritt ist die Kontraktion der Lernaktualisierung proportional zu Gamma, γ. Beim Bootstrapping nach zwei Schritten ist die erwartete Kontraktion γ^2. Daher kann die Divergenz bei der Verwendung von mehrstufigen Aktualisierungen auch bei der Verwendung neuronaler Netze abnehmen. Experimente haben gezeigt, dass die Instabilität mit zunehmender Anzahl von Schritten abnimmt.
Explorationsstrategien: Geeignete Explorationsstrategien, wie z. B. Epsilon-Greedy- oder UCB-Exploration, können dem Agenten helfen, vielfältige Erfahrungen zu sammeln. Dies ist besonders wichtig bei der Verwendung von Off-Policy-Learning, da der Agent verschiedene Situationen erkunden muss, um sicherzustellen, dass seine Daten repräsentativ sind. Diese Strategien stellen sicher, dass der Agent im Laufe der Zeit versucht, wertvolle und lohnende Erfahrungen zu priorisieren.

Über den Einsatz von Reinforcement Learning in der Industrie und anderen relevanten Branchen lesen Sie in unserem Fachbeitrag:

Reinforcement Learning – Use Cases für Unternehmen

Fazit

Beim Reinforcement Learning wirft das Konzept der Deadly Triad – die Konvergenz von Funktionsannäherung, Bootstrapping und Off-Policy-Lernen – Licht auf einen komplexen Knotenpunkt im Prozess der optimalen Entscheidungsfindung. Das Zusammenspiel dieser drei Faktoren kann die Herausforderungen für Reinforcement-Learning-Algorithmen verstärken und zu Instabilität, Überschätzung und suboptimalen Lernergebnissen führen. Durch das Verständnis der Dynamik, den sorgfältigen Entwurf von Algorithmen und ein tiefgreifendes Verständnis dieser Wechselwirkungen können wir stabile und leistungsstarke RL-Systeme für komplexe Situationen in der realen Welt entwickeln.

Quelle: https://arxiv.org/pdf/1812.02648.pdf

Diesen Beitrag teilen:

Autor

Brijesh Modasara

Brijesh kam im Mai 2022 als Senior Data Scientist zu [at]. Seine Expertise liegt im Bereich des Reinforcement Learning und Data Mining. Er führt gerne interessante Gespräche über innovative Anwendungen von KI und insbesondere Reinforcement Learning. Wenn er nicht gerade die Tech-Welt revolutioniert, finden Sie ihn dabei, wie er atemberaubende Momente durch seine Linse einfängt und seine Liebe zum Reisen und zur Fotografie kombiniert.

Anbieter:	HubSpot, Inc., 25 First Street, Cambridge, MA 02141, USA
Cookiename:	__hstc; hubspotutk; __hssc; __hssrc; __cf_bm; __cfruid
Laufzeit:	6 Monate; 6 Monate; 30 Minuten; Sitzungsende; 30 Minuten; Sitzungsende
Datenschutzlink:	https://legal.hubspot.com/de/privacy-policy
Host:	.hubspot.com

Anbieter:	InnoCraft Ltd., 150 Willis St, 6011 Wellington, New Zealand
Cookiename:	_pk_id..; _pk_ses..
Laufzeit:	13 Monate; 30 Minuten
Datenschutzlink:	https://matomo.org/gdpr-analytics/
Host:	.matomo.cloud

Anbieter:	Google Ireland Limited, Gordon House, Barrow Street, Dublin 4, Ireland
Cookiename:	YSC; VISITOR_INFO1_LIVE; PREF
Laufzeit:	Sitzungsende; 6 Monate; 8 Monate
Datenschutzlink:	https://policies.google.com/privacy?hl=de
Host:	.youtube.com

Anbieter:	Podigee GmbH, Revaler Straße 28, 10245 Berlin, Deutschland
Cookiename:	Nicht spezifiziert
Laufzeit:	Nicht spezifiziert
Datenschutzlink:	https://www.podigee.com/de/ueber-uns/datenschutz/
Host:	.podigee.com

Anbieter:	Google Ireland Limited, Gordon House, Barrow Street, Dublin 4, Irland
Cookiename:	SID; HSID; NID
Laufzeit:	2 Jahre; 2 Jahre; 6 Monate
Datenschutzlink:	https://policies.google.com/privacy?hl=de
Host:	.google.com