Verstärkendes Lernen im Einsatz – Voraussetzungen und Use Cases

Verstärkendes Lernen

Verstärkendes Lernen bzw. Reinforcement Learning ist eine der vielversprechendsten Machine Learning Methoden bzw. im Bereich KI. Nachdem wir uns im zweiten Teil der Artikel-Serie mit dem Stand der Forschung beschäftigt haben, erfahren Sie in diesem dritten und letzten Teil alles Wichtige über den praktischen Einsatz von Verstärkendem Lernen.

In den letzten Jahren wurden enorme Fortschritte in der Forschung im Bereich Verstärkendes Lernen gemacht. Dabei zeichneten sich die Algorithmen vor allem durch beeindruckende Siege bei komplexen Spielen und der Bewältigung von einfachen Roboteraufgaben aus. Verstärkendes Lernen eignet sich jedoch zum Einsatz in einem breiten Anwendungsspektrum, insbesondere für die Steuerung und Optimierung komplexer Systeme.

#VerstärkendesLernen hat ein enormes Potential. Für den praktischen Einsatz müssen jedoch bestimmte Voraussetzungen erfüllt sein. #ReinforcementLearning Klick um zu Tweeten

Doch dem praktischen Einsatz stehen im Moment noch einige Herausforderungen im Wege. Schließlich will niemand in einem fahrenden Auto sitzen, in dem gerade ein lernender Algorithmus im Trial-and-Error-Verfahren die optimalste Lösung für das Navigieren im Straßenverkehr erprobt. Die reale Welt ist voller unberechenbarer Ereignisse, nicht vollständig beobachtbar und somit nur schwer zu meistern. Das Potenzial für teure Komplikationen oder sogar katastrophale Unfälle sind groß.

Linktipp: Wenn Sie sich für autonom fahrende Fahrzeuge interessieren, lesen Sie auch unseren Blog-Artikel, bei dem sich ein Data Scientist aus seiner Perspektive mit dem Thema beschäftigt.

Grundvoraussetzung für den Einsatz von Verstärkendem Lernen: Wie lautet die konkrete Fragestellung?

Wenn es um den praktischen Einsatz von Reinforcement Learning geht, muss als erstes die Fragestellung richtig verstanden werden. Verstärkendes Lernen ist nicht für jede Aufgabe gleichermaßen die passende Lösung. Es gibt wahrscheinlich sogar mehr Anwendungsfälle, in denen andere Methoden passender sind als Verstärkendes Lernen. Welche Methode zu welchem Use Case passt, lässt sich beispielsweise in einem Use-Case-Workshop herausfinden.

Lese-Tipp: Verschaffen Sie sich einen Überblick über die praktischen Einsatzzwecke der wichtigsten Machine-Learning-Methoden wie Classification und Clustering.

Um herauszubekommen, ob sich Verstärkendes Lernen für eine bestimmte Fragestellung eignet, sollten Sie überprüfen, ob Ihr Problem einige der folgenden Merkmale aufweist:

  • Gibt es die Möglichkeit, das Prinzip von „Trial-and-Error“ anzuwenden?
  • Ist Ihre Fragestellung ein Steuerungs- oder Kontrollproblem?
  • Gibt es eine komplexe Optimierungs-Aufgabe?
  • Lässt sich das komplexe Problem nur bedingt mit traditionellen Engineering-Verfahren lösen?
  • Lässt sich die Aufgabe in einer simulierten Umgebung ausführen?
  • Ist eine performante Simulationsumgebung vorhanden?
  • Kann die Simulationsumgebung beeinflusst werden und deren Status abgefragt werden?

Verstärkendes Lernen ist keine fertige Lösung – die Lösung wird näherungsweise erreicht

Bevor ein Reinforcement-Learning-Algorithmus funktioniert, sind viele Iterationen erforderlich. Das liegt unter anderem daran, dass es verzögerte Belohnungen geben kann und diese erst gefunden werden müssen. Der Lernvorgang kann dabei als „Marcov Decision Process“ (MDP) modelliert werden. Dafür müssen ein Zustandsraum, ein Aktionsraum und eine Belohnungsfunktion entworfen werden.

Eine derart simulierte Lernumgebung muss eine wichtige Voraussetzung erfüllen: Sie muss die reale Welt vereinfacht widerspiegeln können. Dazu müssen drei Punkte beachtet werden:

  1. Es muss ein geeigneter RL-Algorithmus mit gegebenenfalls einem neuronalen Netz ausgewählt oder entwickelt werden.
  2. Wir müssen „Iterations-Epochen“ und ein klares „Ziel“
  3. Wir müssen eine Reihe von möglichen „Aktionen“ definieren, die ein Agent ausführen kann.
  4. Wir können „Belohnungen“ für den Agenten definieren.

Verstärkendes Lernen ist ein iterativer Prozess, bei dem die Systeme von selbst aus einer derart gestalteten Umgebung Regeln lernen können.

Die Vorteile von Verstärkendem Lernen

Verstärkendes Lernen lässt sich idealerweise dann einsetzen, wenn ein bestimmtes Ziel bekannt ist, dessen Lösung aber noch nicht. Beispielsweise: Ein Auto soll selbständig auf dem optimalen Weg von A nach B kommen, ohne einen Unfall zu verursachen. Im Vergleich zu traditionellen Engineering Methoden soll jedoch nicht der Mensch die Lösung vorgeben. Es wird mit möglichst wenigen Vorgaben eine eigene neue Lösung gefunden werden.

Einer der großen Vorzüge von Reinforcement Learning ist, dass im Gegensatz zu Supervised Machine Learning und Unsupervised Machine Learning keine speziellen Trainingsdaten  benötigt werden. Im Gegensatz zu Supervised Machine Learning können neue und unbekannte Lösungen entstehen, anstatt nur aus den Daten nachgeahmte Lösungen. Das Erreichen einer neuen optimalen von Menschen unbekannten Lösung ist möglich.

#VerstärkendesLernen kann wie keine andere Methode aus dem Bereich #MachineLearning völlig neue und für Menschen unbekannte Lösungen für Probleme entwickeln. Klick um zu Tweeten

Verstärkendes Lernen steht auch vor einigen Herausforderungen wie intensiver Rechenleistung und der Definition von Belohnungen

Wer auf Verstärkendes Lernen setzen will, muss sich darüber bewusst sein, dass damit einige Herausforderungen einhergehen. Allen voran kann der Lernvorgang selbst sehr rechenintensiv sein. Langsame Simulationsumgebungen sind oft der Flaschenhals in Projekten mit Reinforcement Learning.

Daneben ist das Definieren der „Reward-Funktion“ – auch als Reward-Engineering bezeichnet – nicht trivial. Es ist nicht immer von Anfang an ersichtlich, wie die Rewards, also die Belohnungen, zu definieren sind. Darüber hinaus ist das Optimieren der vielen Parameter sehr komplex. Auch die Definition von Beobachtungs- und Aktions-Raum ist manchmal nicht einfach.

Nicht zuletzt spielt beim Verstärkendem Lernen auch das Dilemma von „Exploration vs. Exploitation“ eine Rolle. Das heißt, es stellt sich immer wieder die Frage, ob es lohnender ist, neue, unbekannte Wege zu gehen oder bestehende Lösungen zu verbessern.

Verstärkendes Lernen in der Praxis: Branchen und konkrete Use Cases

Um ein besseres Gefühl für die Anwendungsmöglichkeiten von Reinforcement Learning zu bekommen, haben wir im Folgenden noch einige Beispiele aus der Praxis zusammengestellt. Die folgende Übersicht zeigt zunächst das breite Aufgabenspektrum insgesamt. Verstärkendes Lernen kann dabei innerhalb der drei Kategorien „Optimierung“, „Steuerung“ und „Monitoring“ angewandt werden.

verstäkendes Lernen

Die Grafik gibt einen Überblick über das Aufgabenspektrum von Verstärkendem Lernen.

Google steuert die Klimaanlage mit Verstärkendes Lernen

Google ist dafür bekannt, an der vordersten Front der KI-Entwicklung zu stehen. Auch Verstärkendes Lernen spielt dabei eine wichtige Rolle. Diese Methode setzt Google bei der Gleichstromkühlung ein. Zum Hintergrund: Google betreibt riesige Rechenzentren, die nicht nur enorm viel Strom verbrauchen, sondern dabei extrem hohe Temperaturen erzeugen. Zur Kühlung wird dabei ein komplexes System von Klimaanlagen eingesetzt.

Damit war Google in der Lage, durch den Einsatz seines lernfähigen Algorithmus die Energiekosten für die Server-Kühlung um 40 Prozent zu senken.

Verstärkendes Lernen hilft dabei, dieses komplexe, dynamische System zu kontrollieren und zu steuern. Dabei gibt es nicht unbedeutende Sicherheitsbeschränkungen und Potenzial für eine erhebliche Verbesserung der Energieeffizienz.

Ampelsteuerung in einem intelligenten Verkehrsleitsystem

Ebenfalls komplex und extrem störungsanfällig ist unser Straßennetz und das Verkehrsleitsystem. Allen voran ist dabei die intelligente Steuerung von Ampeln eine große Herausforderung. Verstärkendes Lernen eignet sich geradezu in idealer Weise, dieses Problem zu lösen. In dem Paper „Reinforcement learning-based multi-agent system for network traffic signal control“ versuchten Forscher, eine Ampelsteuerung zur Lösung des Stauproblems zu entwickeln.

Simulationsumgebung am Beipiel eines Verkehrsleitsystems

Skizze für eine Simulationsumgebung mit Aktionsmöglichkeiten für den Agent. (Bildquelle: http://web.eecs.utk.edu/~itamar/Papers/IET_ITS_2010.pdf)

Verstärkendes Lernen in der Logistik-Branche: Bestandsverwaltung und Flottenmanagement

Die Logistik-Branche ist aufgrund ihrer Komplexität hervorragend für Verstärkendes Lernen geeignet. Das lässt sich zum einen am Beispiel der Bestandsverwaltung klar machen. Verstärkendes Lernen kann etwa dazu verwendet werden, um die Durchlaufzeit für die Lagerbestände sowie die Bestellung von Produkten zur optimalen Nutzung des zur Verfügung stehenden Raumes des Lagerbetriebs zu reduzieren.

Auch im Bereich Flottenmanagement wird Verstärkendes Lernen verwendet. Hier gilt es seit vielen Jahren, eines der Hauptprobleme, das „Split Delivery Vehicle Routing Problem“ (SDVRP), zu lösen. Bei der traditionellen Tourenplanung steht eine Flotte mit einer bestimmten Kapazität und einer bestimmten Anzahl an Fahrzeugen zur Verfügung, um eine bestimmte Anzahl an Kunden mit einer bekannten Nachfrage zu bedienen. Dabei muss jeder Kunde von genau einem Fahrzeug angefahren werden. Das Ziel ist es, die Gesamtstrecke zu minimieren.

Beim Routing-Problem bei gesplitteten, also geteilten Lieferfahrzeugen (SDVRP) wird nun die Einschränkung, dass jeder Kunde genau einmal besucht werden muss, aufgehoben. Sprich: geteilte Lieferungen sind zulässig. Verstärkendes Lernen kann dieses Problem lösen, so dass so viele Kunden wie möglich mit nur einem Fahrzeug bedient werden.

Verstärkendes Lernen ermöglicht Dynamic Pricing in der Retail-Industrie

Die dynamische Gestaltung von Preisen ist in bestimmten Bereichen wie im eCommerce ein andauernder und zeitkritischer Prozess. Verstärkendes Lernen ist ein Schlüssel, wenn es darum geht, eine geeignete Strategie für Preise in Abhängigkeit von Angebot und Nachfrage zu erstellen. Damit lässt sich der Produktumsatz sowie Gewinnmargen maximieren. Die Preisgestaltung kann auf den historischen Daten des Kaufverhaltens der Kunden trainiert werden und so beim Produktpreisfindungs-Prozess Vorschläge liefern.

Fazit: Verstärkendes Lernen hat ein enormes Potential zur Disruption

Verstärkendes Lernen ist aus einem bestimmten Grund besonders faszinierend. Die Methode weist sehr enge Beziehungen zu Psychologie, Biologie und den Neurowissenschaften auf. Ähnlich wie wir Menschen können Algorithmen mit dieser Lernmethode Fähigkeiten entwickeln, die den unseren ähneln. Das Grundprinzip lautet dabei immer „Trial-and-Error“. Mit diesem vergleichsweisen einfachen Prinzip können komplexe Kontroll- und Optimierungsprobleme gelöst werden, die mit traditionellen Methoden nur schwer zu realisieren sind.

Verstärkendes Lernen ist einer der aktuell interessantesten und sich am schnellsten entwickelnden Forschungsbereiche. Der Schritt in die Praxis nimmt immer mehr Fahrt auf und kann den entscheidenden Wettbewerbsvorteil ausmachen. Mit einer geeigneten Simulationsumgebung und einem Belohnungssystem kann Verstärkendes Lernen zu beeindruckenden Ergebnissen führen. Vorausgesetzt, es gibt eine geeignete Fragestellung und eine KI-Strategie, in die sich Verstärkendes Lernen einbetten lässt.

RL-Serie Teil 1 RL-Serie Teil 2

 

 

 

Sie möchten mehr über Machine Learning im Allgemeinen oder Reinforcement Learning im Speziellen erfahren? Schreiben Sie uns.

Kontakt

Tags

top