Einfach erklärt: So funktioniert Reinforcement Learning (Teil 1/3)

Reinforcement Learning beziehungsweise „Bestärkendes Lernen“ oder „Verstärkendes Lernen“ ist eine immer beliebter werdende Machine-Learning-Methode, die sich darauf konzentriert intelligente Lösungen auf komplexe Steuerungsprobleme zu finden. In diesem Blog-Artikel erklären wir, wie die Methode grundsätzlich funktioniert, um dann in zwei folgenden Artikeln zu zeigen, welches konkrete Potential in Reinforcement Learning steckt.

Reinforcement Learning kann zu ganz praktischen Zwecken eingesetzt werden. Google beispielsweise steuert mit Reinforcement Learning die Klimaanlage der Rechenzentren und konnte damit ein beeindruckendes Ergebnis erzielen: „Der lernfähige Algorithmus war dazu in der Lage, die zur Kühlung der Server notwendige Energie um rund 40 Prozent zu senken“. (Quelle: Deepmind.com) Aber wie funktioniert Reinforcement Learning?

Was ist Reinforcement Learning?

Übersetzt bedeutet Reinforcement Learning in etwa Bestärkendes Lernen oder Verstärkendes Lernen. Ganz allgemein gesagt, gliedert sich Reinforcement Learning zwischen Unsupervised Machine Learning und Supervised Machine Learning ein. Reinforcement Learning gilt neben den beiden genannten Methoden als eines der drei Methoden des Maschinellen Lernens.

In Abgrenzung zu den beiden anderen Methoden werden beim Reinforcement Learning jedoch vorab keine Daten benötigt. Stattdessen werden diese in einer Simulationsumgebung in vielen Durchläufen in einem Trial-and-Error-Verfahren während des Trainings generiert und gelabelt.

Reinforcement Learning ist eine vielversprechende Methode auf dem Weg hin zu einer generellen Künstlichen Intelligenz

Im Ergebnis ist durch Reinforcement Learning eine Form Künstlicher Intelligenz möglich, die ohne menschliches Vorwissen komplexe Steuerungsprobleme lösen kann. Im Vergleich zu konventionellem Engineering können solche Aufgaben um ein Vielfaches schneller, effizienter und im idealen Fall sogar optimal gelöst werden. Von führenden KI-Forschern wird Reinforcement Learning als vielversprechende Methode zur Erreichung von Artificial General Intelligence bezeichnet.

Kurz gesagt handelt es sich dabei um die Fähigkeit einer Maschine – ähnlich wie ein Mensch – jede beliebige intellektuelle Aufgabe erfolgreich erfüllen zu können. Wie ein Mensch muss auch eine Maschine verschiedene Kausalitäten beobachten und davon lernen, um in Zukunft unbekannte Probleme zu lösen.

Linktipp: Wenn Sie sich für die Unterscheidung von Künstlicher Intelligenz, Artificial General Intelligence und Methoden wie Machine Learning interessieren, lesen Sie unseren Grundlagen-Artikel zum Thema „KI“.

Ein Weg diesen Lernprozess nachzubilden ist die Methode „Trial-and-Error“. Anders gesagt wird bei Reinforcement Learning das Lernverhalten von „Trial-and-Error“ aus der Natur nachgebildet. Somit weist der Lernprozess in Reinforcement Learning Verbindungen zu Methoden in der Psychologie, Biologie und den Neurowissenschaften auf.

Mit #ReinforcementLearning wird es wahrscheinlich möglich, eine #ArtificialGeneralIntellgience zu erreichen. Dabei ist die Natur das Vorbild für den Lernvorgang. Klick um zu Tweeten

Theorie: So funktioniert Reinforcement Learning

Reinforcement Learning steht für eine ganze Reihe von Einzelmethoden, bei denen ein Software-Agent selbständig eine Strategie erlernt. Das Ziel bei dem Lernvorgang ist es, die Zahl an Belohnungen innerhalb einer Simulationsumgebung zu maximieren. Beim Training führt der Agent zu jedem Zeitschritt Aktionen innerhalb dieser Umgebung aus und erhält jeweils ein Feedback.

Dabei wird dem Software-Agenten vorab nicht gezeigt, welche Aktion in welcher Situation die beste ist. Vielmehr erhält er zu bestimmten Zeitpunkten eine Belohnung. Während des Trainings lernt der Agent auf diese Weise die Folgen von Aktionen auf Situationen in der Simulationsumgebung einzuschätzen. Auf dieser Basis kann er eine langfristige Strategie entwickeln, um die Belohnung zu maximieren.

Reinforcement Learning Modell

Die Abbildung zeigt eine Iterationsschleife und illustriert das Zusammenspiel der einzelnen Komponenten beim Reinforcement Learning

Das Ziel von Reinforcement Learning: Eine möglichst optimale Policy zu finden

Eine Policy ist einfach gesagt das gelernte Verhalten eines Software-Agents. Eine Policy gibt an, welche Action bei einer beliebigen Verhaltensvariante (Observation) aus der Lernumgebung (Enviroment) ausgeführt werden soll, um die Belohnung (Reward) zu maximieren.

Wie kann so eine Policy abgebildet werden? Dafür kann beispielsweise eine sogenannte Q-Table verwendet werden. Darin wird eine Tabelle mit allen möglichen Beobachtungen als Zeilen und allen möglichen Actions als Spalten aufgebaut. Die Zellen werden dann während des Trainings mit den sogenannten Value-Werten gefüllt, welche den erwarteten zukünftigen Reward darstellen.

Das verwenden der Q-Table hat aber auch seine Grenzen.: sie funktioniert nur, wenn der Action- und Observation-Space klein bleibt. Das heißt, wenn die Handlungsoptionen und die Verhaltensmöglichkeiten gering sind. Sollen viele Features oder auch Features mit kontinuierlichen Werten vom Software-Agent von der Environment ausgewertet werden, ist ein Neuronales Netz nötig um die Values abzubilden. Hierbei ist eine übliche Methode Deep Q-Learning.

Linktipp: In unserem Blog-Artikel zum Thema Deep Learning erklären wir nicht nur die Methode, sondern zeigen auch, wie sie praktisch Anwendung findet.

Im Detail wird das Neuronale Netz mit den Features des Observation-Spaces als Input-Schicht und mit den Actions als Ausgabe-Schicht oder Output-Layer definiert. Die Werte werden dann während des Trainings in den einzelnen Neuronen des Netzwerks gelernt und abgespeichert.

Reinforcement Learning in aller Kürze und das große Potential der Methode

Beim verstärkten Lernen geht es in der Essenz darum, durch Interaktionen mit einer Umgebung zu lernen. Der Schlüssel zur Lösung von Verstärkungsaufgaben ist es, optimale Richtlinien- bzw. Wertefunktionen zu finden. Die Repräsentation einer Policy und die zu verwendende Reinforcement-Learning-Methode hängt spezifisch von dem zu lösenden Problem ab.

Im nächsten Blog-Artikel zum Thema Reinforcement Learning beschäftigen wir uns mit dem aktuellen Stand der Forschung und der Herausforderung, eine Künstliche Generelle Intelligenz herzustellen. Wie bereits erwähnt, spielt Reinforcement Learning dabei eine Schlüsselrolle. Aufgrund des enormen Potentials der Methode erklärt sich die große Aufmerksamkeit, die ihr aktuell zukommt.

RL-Serie Teil 2 RL-Serie Teil 3

 

Sie möchten mehr über Machine Learning im Allgemeinen oder Reinforcement Learning im Speziellen erfahren? Schreiben Sie uns.

Kontakt

Tags

top