Was ist Temporal Difference Learning?

Temporal Difference Learning (auch TD-Learning genannt) beschreibt eine Ausführung des sogenannten bestärkenden Lernen bzw. verstärkenden Lernen (engl. Reinforcement Learning), welches neben dem überwachten Lernen (engl. Supervised Learning) und dem unüberwachten Lernen (engl. Unsupervised Learning) eine der drei Lernmethoden des Machine Learnings darstellt.

Wie bei anderen Methoden des bestärkenden Lernens sind auch beim Temporal Difference Learning für den Lernalgorithmus keine Ausgangs- oder Trainingsdaten notwendig. Das System bzw. ein Software-Agent lernt anhand eines Trial-and-Error-Verfahrens, indem er für eine Folge von Entscheidungen/Aktionen eine Belohnung erhält und seine zukünftige Strategie entsprechend ausrichtet und anpasst. Das Modell des Algorithmus basiert auf dem Markow-Entscheidungsproblem, bei welchem sich der Nutzen für einen Software-Agenten aus einer Folge von Aktionen ergibt.

Im Gegensatz zu anderen Lernmethoden aktualisiert sich die Bewertungsfunktion beim TD-Learning mit der entsprechenden Belohnung nach jeder einzelnen Aktion und nicht erst nach Durchlaufen einer Sequenz von Aktionen. Dadurch nähert sich die Strategie iterativ an die Optimalfunktion an. Dieses Verfahren wird als Bootstrapping bzw. Bragging bezeichnet und hat das Ziel, die Varianz bei der Lösungsfindung zu verringern.

Welche Algorithmen existieren im TD-Learning?

Innerhalb des Temporal Difference Learning existieren mehrere Algorithmen zur Umsetzung der Methode.

Beim Q-Learning bewertet der Software-Agent statt des Nutzenniveaus eines Zustandes den Nutzen einer durchzuführenden Aktion und wählt jene Aktion mit dem größten Nutzenzuwachs auf Basis der aktuellen Bewertungsfunktion. Angesichts dessen spricht man beim Q-Learning von einer „action-value function“ anstatt einer „state-value function“.

Auch bei SARSA (Abkürzung für „state-action-reward-state-action“) handelt es sich um einen Algorithmus mit einer action-value function. Neben dieser Gemeinsamkeit mit Q-Learning unterscheidet sich SARSA von Q-Learning dahin gehend, dass es sich bei Q-Learning um einen off-policy-Algorithmus handelt, bei SARSA hingegen um einen on-policy-Algorithmus. Bei einer off-policy wird zur Aktionsfindung der nächste Zustand berücksichtigt, während bei on-policy der Algorithmus sowohl den nächsten Zustand als auch seine aktuelle Aktion berücksichtigt und der Agent somit zur Berechnung der Folgeaktion seiner Strategie treu bleibt. Die bisher betrachteten Algorithmen berücksichtigen lediglich die unmittelbare Belohnung der nächsten Aktion.

Bei sogenannten TD n-step Methoden werden hingegen die Belohnungen der n nächsten Schritte einbezogen.

Bei TD-Lambda TD(λ) handelt es sich um eine Erweiterung des Temporal Difference Learning Algorithmus. Dabei besteht die Möglichkeit, dass nicht lediglich ein einziger Zustand zur Anpassung der Bewertungsfunktion führt, sondern innerhalb einer Sequenz die Werte mehrerer Zustände angepasst werden können. Die Zerfallsrate λ regelt für jeden einzelnen Zustand das Ausmaß der möglichen Änderung, wobei sich diese Größe mit jeder Iteration vom betrachteten Zustand entfernt und exponentiell abnimmt. TD-Lambda lässt sich auch auf die Methoden von Q-Learning und SARSA anwenden.

Wofür werden diese Algorithmen in der Praxis genutzt?

Die Anwendungsbereiche von Temporal Difference Learning im Rahmen der Reinforcement Learning Methoden sind vielfältig. Ein plakatives Nutzungsbeispiel ist dabei das Spiel TD-Gammon, welches sich am Spiel Backgammon orientiert und durch einen TD-Lambda-Algorithmus entwickelt wurde. Ähnliches gilt auch für das Spiel AlphaGo, welches auf dem japanischen Brettspiel Go basiert.

Ein Anwendungsfall von Q-Learning findet sich im Rahmen des autonomen Fahrens im Straßenverkehr, indem das System selbstständig kollisionsfreie Überholstrategien und Spurwechsel erlernt und anschließend eine konstante Geschwindigkeit beibehält.

SARSA lässt sich hingegen beispielsweise dafür einsetzen, Kreditkartenbetrug aufzudecken. Die SARSA-Methode errechnet den Algorithmus zur Erkennung von Betrug, während das Klassifizierungs- und Regressionsverfahren eines Random-Forest die Genauigkeit der Vorhersage von Kreditkartenausfällen optimiert.