Verstärkendes Lernen bzw. Reinforcement Learning ist eine der vielversprechendsten Machine Learning Methoden bzw. im Bereich KI. Nachdem wir uns im zweiten Teil der Artikel-Serie mit dem Stand der Forschung beschäftigt haben, erfahren Sie in diesem dritten und letzten Teil alles Wichtige über den praktischen Einsatz von verstärkendem Lernen.
In den letzten Jahren wurden enorme Fortschritte in der Forschung im Bereich verstärkendes Lernen gemacht. Dabei zeichneten sich die Algorithmen vor allem durch beeindruckende Siege bei komplexen Spielen und der Bewältigung von einfachen Roboteraufgaben aus. Verstärkendes Lernen eignet sich jedoch zum Einsatz in einem breiten Anwendungsspektrum, insbesondere für die Steuerung und Optimierung komplexer Systeme.
Doch dem praktischen Einsatz stehen im Moment noch einige Herausforderungen im Wege. Schließlich will niemand in einem fahrenden Auto sitzen, in dem gerade ein lernender Algorithmus im Trial-and-Error-Verfahren die optimale Lösung für das Navigieren im Straßenverkehr erprobt. Die reale Welt ist voller unberechenbarer Ereignisse, nicht vollständig beobachtbar und somit nur schwer zu meistern. Das Potenzial für teure Komplikationen oder sogar katastrophale Unfälle sind groß.
Grundvoraussetzung für den Einsatz von verstärkendem Lernen
Wenn es um den praktischen Einsatz von verstärkendem Lernen geht, muss als Erstes die Fragestellung richtig verstanden werden. Verstärkendes Lernen ist nicht für jede Aufgabe gleichermaßen die passende Lösung. Es gibt wahrscheinlich sogar mehr Anwendungsfälle, in denen andere Methoden passender sind als verstärkendes Lernen. Welche Methode zu welchem Use Case passt, lässt sich beispielsweise in einem Use-Case-Workshop herausfinden.
Verschaffen Sie sich einen Überblick über die praktischen Einsatzzwecke der wichtigsten Machine-Learning-Methoden wie Classification und Clustering.
Um herauszubekommen, ob sich Verstärkendes Lernen für eine bestimmte Fragestellung eignet, sollten Sie überprüfen, ob Ihr Problem einige der folgenden Merkmale aufweist:
- Gibt es die Möglichkeit, das Prinzip von „Trial-and-Error“ anzuwenden?
- Ist Ihre Fragestellung ein Steuerungs- oder Kontrollproblem?
- Gibt es eine komplexe Optimierungs-Aufgabe?
- Lässt sich das komplexe Problem nur bedingt mit traditionellen Engineering-Verfahren lösen?
- Lässt sich die Aufgabe in einer simulierten Umgebung ausführen?
- Ist eine performante Simulationsumgebung vorhanden?
- Kann die Simulationsumgebung beeinflusst werden und deren Status abgefragt werden?
Verstärkendes Lernen ist keine fertige Lösung – die Lösung wird näherungsweise erreicht
Bevor ein Algorithmus funktioniert, sind viele Iterationen erforderlich. Das liegt unter anderem daran, dass es verzögerte Belohnungen geben kann und diese erst gefunden werden müssen. Der Lernvorgang kann dabei als „Marcov Decision Process“ (MDP) modelliert werden. Dafür müssen ein Zustandsraum, ein Aktionsraum und eine Belohnungsfunktion entworfen werden.
Eine derart simulierte Lernumgebung muss eine wichtige Voraussetzung erfüllen: Sie muss die reale Welt vereinfacht widerspiegeln können. Dazu müssen drei Punkte beachtet werden:
- Es muss ein geeigneter RL-Algorithmus mit gegebenenfalls einem neuronalen Netz ausgewählt oder entwickelt werden.
- „Iterations-Epochen“ und ein klares „Ziel“ definieren
- Wir müssen eine Reihe von möglichen „Aktionen“ definieren, die ein Agent ausführen kann.
- Es können „Belohnungen“ für den Agenten definiert werden.
Verstärkendes Lernen ist ein iterativer Prozess, bei dem die Systeme von selbst aus einer derart gestalteten Umgebung Regeln lernen können.
Die Vorteile von Verstärkendem Lernen
Verstärkendes Lernen lässt sich idealerweise dann einsetzen, wenn ein bestimmtes Ziel bekannt ist, dessen Lösung aber noch nicht. Beispielsweise: Ein Auto soll selbständig auf dem optimalen Weg von A nach B kommen, ohne einen Unfall zu verursachen. Im Vergleich zu traditionellen Engineering Methoden soll jedoch nicht der Mensch die Lösung vorgeben. Es wird mit möglichst wenigen Vorgaben eine eigene neue Lösung gefunden werden.
Einer der großen Vorzüge von Verstärkendem Lernen ist, dass im Gegensatz zu Supervised Machine Learning und Unsupervised Machine Learning keine speziellen Trainingsdaten benötigt werden. Im Gegensatz zu Supervised Machine Learning können neue und unbekannte Lösungen entstehen, anstatt nur aus den Daten nachgeahmte Lösungen. Das Erreichen einer neuen optimalen von Menschen unbekannten Lösung ist möglich.
Verstärkendes Lernen steht auch vor einigen Herausforderungen wie intensiver Rechenleistung und der Definition von Belohnungen
Wer auf Verstärkendes Lernen setzen will, muss sich darüber bewusst sein, dass damit einige Herausforderungen einhergehen. Allen voran kann der Lernvorgang selbst sehr rechenintensiv sein. Langsame Simulationsumgebungen sind oft der Flaschenhals in Projekten mit Verstärkendem Lernen.
Daneben ist das Definieren der „Reward-Funktion“ – auch als Reward-Engineering bezeichnet – nicht trivial. Es ist nicht immer von Anfang an ersichtlich, wie die Rewards, also die Belohnungen, zu definieren sind. Darüber hinaus ist das Optimieren der vielen Parameter sehr komplex. Auch die Definition von Beobachtungs- und Aktions-Raum ist manchmal nicht einfach.
Nicht zuletzt spielt beim Verstärkendem Lernen auch das Dilemma von „Exploration vs. Exploitation“ eine Rolle. Das heißt, es stellt sich immer wieder die Frage, ob es lohnender ist, neue, unbekannte Wege zu gehen oder bestehende Lösungen zu verbessern.
Verstärkendes Lernen in der Praxis: Branchen und konkrete Use Cases
Um ein besseres Gefühl für die Anwendungsmöglichkeiten von Verstärkendem Lernen zu bekommen, haben wir im Folgenden noch einige Beispiele aus der Praxis zusammengestellt. Die folgende Übersicht zeigt zunächst das breite Aufgabenspektrum insgesamt. Verstärkendes Lernen kann dabei innerhalb der drei Kategorien „Optimierung“, „Steuerung“ und „Monitoring“ angewandt werden.
Google steuert die Klimaanlage mit Verstärkendes Lernen
Google ist dafür bekannt, an der vordersten Front der KI-Entwicklung zu stehen. Auch Verstärkendes Lernen spielt dabei eine wichtige Rolle. Diese Methode setzt Google bei der Gleichstromkühlung ein. Zum Hintergrund: Google betreibt riesige Rechenzentren, die nicht nur enorm viel Strom verbrauchen, sondern dabei extrem hohe Temperaturen erzeugen. Zur Kühlung wird dabei ein komplexes System von Klimaanlagen eingesetzt.
Damit war Google in der Lage, durch den Einsatz seines lernfähigen Algorithmus die Energiekosten für die Server-Kühlung um 40 Prozent zu senken.
Verstärkendes Lernen hilft dabei, dieses komplexe, dynamische System zu kontrollieren und zu steuern. Dabei gibt es nicht unbedeutende Sicherheitsbeschränkungen und Potenzial für eine erhebliche Verbesserung der Energieeffizienz.
Ampelsteuerung in einem intelligenten Verkehrsleitsystem
Ebenfalls komplex und extrem störungsanfällig ist unser Straßennetz und das Verkehrsleitsystem. Allen voran ist dabei die intelligente Steuerung von Ampeln eine große Herausforderung. Verstärkendes Lernen eignet sich geradezu in idealer Weise, dieses Problem zu lösen. In dem Paper „Reinforcement learning-based multi-agent system for network traffic signal control“ versuchten Forscher, eine Ampelsteuerung zur Lösung des Stauproblems zu entwickeln.
Verstärkendes Lernen in der Logistik-Branche: Bestandsverwaltung und Flottenmanagement
Die Logistik-Branche ist aufgrund ihrer Komplexität hervorragend für Verstärkendes Lernen geeignet. Das lässt sich zum einen am Beispiel der Bestandsverwaltung klar machen. Verstärkendes Lernen kann etwa dazu verwendet werden, um die Durchlaufzeit für die Lagerbestände sowie die Bestellung von Produkten zur optimalen Nutzung des zur Verfügung stehenden Raumes des Lagerbetriebs zu reduzieren.
Auch im Bereich Flottenmanagement wird Verstärkendes Lernen verwendet. Hier gilt es seit vielen Jahren, eines der Hauptprobleme, das „Split Delivery Vehicle Routing Problem“ (SDVRP), zu lösen. Bei der traditionellen Tourenplanung steht eine Flotte mit einer bestimmten Kapazität und einer bestimmten Anzahl an Fahrzeugen zur Verfügung, um eine bestimmte Anzahl an Kunden mit einer bekannten Nachfrage zu bedienen. Dabei muss jeder Kunde von genau einem Fahrzeug angefahren werden. Das Ziel ist es, die Gesamtstrecke zu minimieren.
Beim Routing-Problem bei gesplitteten, also geteilten Lieferfahrzeugen (SDVRP) wird nun die Einschränkung, dass jeder Kunde genau einmal besucht werden muss, aufgehoben. Sprich: geteilte Lieferungen sind zulässig. Verstärkendes Lernen kann dieses Problem lösen, so dass so viele Kunden wie möglich mit nur einem Fahrzeug bedient werden.
Verstärkendes Lernen ermöglicht Dynamic Pricing in der Retail-Industrie
Die dynamische Gestaltung von Preisen ist in bestimmten Bereichen wie im eCommerce ein andauernder und zeitkritischer Prozess. Verstärkendes Lernen ist ein Schlüssel, wenn es darum geht, eine geeignete Strategie für Preise in Abhängigkeit von Angebot und Nachfrage zu erstellen. Damit lässt sich der Produktumsatz sowie Gewinnmargen maximieren. Die Preisgestaltung kann auf den historischen Daten des Kaufverhaltens der Kunden trainiert werden und so beim Produktpreisfindungs-Prozess Vorschläge liefern.
Fazit: Verstärkendes Lernen hat ein enormes Potential zur Disruption
Verstärkendes Lernen ist aus einem bestimmten Grund besonders faszinierend. Die Methode weist sehr enge Beziehungen zu Psychologie, Biologie und den Neurowissenschaften auf. Ähnlich wie wir Menschen können Algorithmen mit dieser Lernmethode Fähigkeiten entwickeln, die den unseren ähneln. Das Grundprinzip lautet dabei immer „Trial-and-Error“. Mit diesem vergleichsweisen einfachen Prinzip können komplexe Kontroll- und Optimierungsprobleme gelöst werden, die mit traditionellen Methoden nur schwer zu realisieren sind.
Verstärkendes Lernen ist einer der aktuell interessantesten und sich am schnellsten entwickelnden Forschungsbereiche. Der Schritt in die Praxis nimmt immer mehr Fahrt auf und kann den entscheidenden Wettbewerbsvorteil ausmachen. Mit einer geeigneten Simulationsumgebung und einem Belohnungssystem kann verstärkendes Lernen zu beeindruckenden Ergebnissen führen. Vorausgesetzt, es gibt eine geeignete Fragestellung und eine KI-Strategie, in die sich verstärkendes Lernen einbetten lässt.
0 Kommentare