Supervised Learning: Kompakt erklärt

von | 10. August 2022 | Grundlagen

Was ist Supervised Learning?

Supervised Learning (im Deutschen überwachtes Lernen) ist ein Lernansatz für Algorithmen, um Prognosen oder Einordnungen zu tätigen. Dafür bildet der Algorithmus ein Modell, welches die ihm gegebene Aufgabe bestmöglich lösen kann, wie zum Beispiel ein Entscheidungsbaum oder eine Regressionsanalyse.
Eine durch Supervised Learning trainierte Künstliche Intelligenz (Artificial Intelligence, kurz AI oder KI) ist in der Lage, eigenständig Klassifizierungen (beispielsweise von Texten oder Objekten) vorzunehmen, oder Vorhersagen (zum Beispiel über Preisentwicklungen oder das Wetter) abzugeben. Vorab wird sie durch eine große Menge an gelabelten Trainingsdaten trainiert. Dadurch besteht beim Supervised Learning ein hoher Aufwand bei der Erfassung und Vorbereitung der nötigen Datensätze.
Als „überwachtes Lernen“ wird es bezeichnet, da der Algorithmus durch die Trainingsdaten so lernt, als würde er von einem Lehrer überwacht werden, der die korrekten Antworten bereits weiß. Supervised Learning ist ein essentieller Teilbereich von Machine Learning (maschinelles Lernen) und wird deshalb auch Supervised Machine Learning (überwachtes maschinelles Lernen) genannt.

Wie funktioniert Supervised Learning?

Für das überwachte Lernen wird ein Algorithmus mit einem großen Satz an Trainingsdaten geschult. Der Datensatz besteht dabei aus Eingabedaten und der korrekten Ausgabe (Lösungen). Die Eingabewerte sind dabei so beschriftet (gelabelt), dass sie mit den gewünschten Lösungen zusammengehören. Dadurch kann der Lernalgorithmus ein Modell (zum Beispiel ein Random Forest oder einen Entscheidungsbaum) entwickeln, indem er die Zusammenhänge zwischen den Ein- und Ausgabedaten erkennt. Auf dieser Basis erstellt er Prognosen für einen neuen Datensatz.

Die Güte des Modells wird anhand von Testverfahren wie Kreuzvalidierung (Cross Validation), Vertrauenswahrscheinlichkeit, Genauigkeit oder Trefferquote bestimmt. Je mehr Datensätze zum Üben zur Verfügung stehen, desto bessere Ergebnisse kann der Algorithmus liefern. Der Lernprozess wird dabei so lange wiederholt, bis das Modell zufriedenstellende Lösungen liefert. Ist die Trainingsphase beendet, kann das Modell unbekannte Eingabedaten mithilfe seiner erlernten Methoden analysieren und die richtige Prognose oder Einordnung treffen.

Supervised Learning Algorithmen

Beim überwachten Lernen werden die Algorithmen in zwei Probleme unterschieden: in Klassifizierung oder Regression.

Klassifizierung

Bei der Klassifizierung hat der Algorithmus das Ziel, die Eingabedaten bestimmten Kategorien zuzuordnen. Dafür erkennt er bestimmte Merkmale und Muster innerhalb des Datensatzes und versucht, Gemeinsamkeiten und Unterschiede zu finden, um eine entsprechende Einordnung vorzunehmen. Kategorien können dabei zum Beispiel „Katze“ und „Hund“ oder „grün“ und „orange“ sein.

Beispiele für Klassifizierungsalgorithmen:

• Entscheidungsbäume
Random Forest
• Lineare Klassifikatoren
Naive Bayes-Klassifikator
• k-Nearest-Klassifikation
Support Vector Machine

Regression

Bei der Regression versucht der Algorithmus, die Zusammenhänge zwischen abhängigen und unabhängigen Variablen zu erkennen und bezieht sich dabei auf kontinuierliche Daten. Regressionsalgorithmen werden vorrangig für Prognosen verwendet, wie zum Beispiel Wahl- und Kaufprognosen oder die Vorhersage der Preisentwicklung einer Immobilie.

Beispiele für Regressionsalgorithmen:

• Lineare Regression
• Logistische Regression
• Polynomregression

Warum ist Supervised Learning wichtig?

Supervised Learning ist der am häufigsten genutzte Algorithmus für Machine Learning. Das liegt daran, dass er viele Aufgaben effizient und unproblematisch lösen kann. Aber nicht alle Gebiete des maschinellen Lernens können mit ihm abgedeckt werden.
Der große Vorteil vom überwachten Lernen liegt darin, dass man die Ausgabe des Modells sehr konkret bestimmen kann. Somit ist jederzeit bekannt, was das Ziel des Modells ist. Zum Beispiel kann ein Klassifizierungsalgorithmus konkret darauf trainiert werden, in Bildern eine bestimmte Art von Straßenschildern zu erkennen. Nachteilig ist der große Aufwand bei der Datenerfassung und deren Bereitstellung zum Training.

Was sind Vor- und Nachteile von Supervised Learning?

Vorteile

Das Ziel, beziehungsweise die Ausgabe, des Algorithmus steht von Anfang an fest und kann direkt bestimmt und beeinflusst werden. Die Kategorien können sehr spezifisch vorgegeben werden und es ist vorher bekannt, wie viele es davon gibt. Supervised Learning ist im Vergleich zu den anderen Arten des Machine Learning relativ einfach zu verstehen. Nachdem das Modell fertig trainiert ist, braucht es kein weiteres Training, um Ergebnisse zu liefern. Es funktioniert einfach nach der gelernten Formel. Überwachtes Lernen kann generell sehr gut Klassifizierungsprobleme lösen.

Nachteile

Der Umfang der Trainingsdaten muss sehr groß sein, um gute Ergebnisse zu erzielen. Wird beispielsweise ein Klassifizierungsalgorithmus nur mit den Klassen „Vogel“ und „Maus“ trainiert und soll später ein Bild mit einer Katze einordnen, so wird er das Bild zwangsläufig falsch zuordnen. Die Daten müssen gelabelt sein, sonst kann der Algorithmus sie nicht einordnen. Da Supervised Learning recht einfach funktioniert, ist es für komplexe Aufgaben des maschinellen Lernens ungeeignet.

Anwendungsbereiche von Supervised Learning

Supervised Machine Learning wird je nach Anwendungsgebiet für Einordnungen (Klassifizierungen) oder Prognosen genutzt. Besonders beliebt ist es für:

• Textklassifizierung
• Bildklassifizierung
• Spamerkennung
• Gesichtserkennung
• Tumorerkennung
• Drogenerkennung
• Predictive Maintenance
• vorausschauende Analysen wie Hauspreise oder Börsenkurse
• Kundenstimmungsanalyse
• Wettervorhersagen

Beispiele für Supervised Learning in der Praxis

Supervised Learning in der Medizin

Im medizinischen Sektor wird Machine Learning in immer mehr Bereichen genutzt. Bereits seit einigen Jahren wird Supervised Learning auch bei der frühzeitigen Krebserkennung und deren Prognosen angewandt. Damit werden Modelle entwickelt, die den Verlauf und die Behandlung von Krebserkrankungen vorhersagen können. Außerdem können trainierte Algorithmen wichtige Merkmale aus komplexen Datensätzen erkennen und erleichtern damit die Arbeit des menschlichen Fachpersonals.

Supervised Learning in der Industrie

In der Industrie wird überwachtes Lernen unter anderem im Bereich der Predictive Maintenance eingesetzt. Damit werden nötige Wartungen festgestellt, um Ausfälle zu verhindern. Zum Beispiel können damit Motoren mit Sensordaten und Zustandsindikatoren so überwacht werden, dass der Verschleiß gemessen wird und die Restnutzungsdauer (Remaining Useful Life) berechnet wird. Das dafür genutzte Modell liefert dann neben den erhobenen Daten auch die Information zu möglichen Wartungsarbeiten, um die Lebensdauer zu erhöhen und Ausfälle zu vermeiden.

Was sind die Unterschiede von Supervised Learning und Unsupervised Learning?

Daten

Der entscheidende Unterschied zwischen Supervised und Unsupervised Learning liegt bei den Trainingsdaten. Beim überwachten Lernen sind die Eingabedaten gelabelt und gehören zu passende Ausgabedaten. Beim unüberwachten Lernen gibt es nur Eingabedaten ohne Merkmale und ohne die passenden Lösungen. Dadurch muss hierbei ein Modell entwickelt werden, indem Muster in den Daten selbst erkennt werden. Deshalb wird es unüberwachtes Lernen genannt, da es keinen „Lehrer“ gibt, der die richtigen Antworten hat.

Ziel

Auch die Zielsetzung beider Lernansätze ist unterschiedlich: beim Supervised Learning ist die Art der Ausgabe bereits bekannt und muss für neue unbekannte Eingabedaten vorhergesagt werden. Beim Unsupervised Learning liegt das Ziel darin, Erkenntnisse aus einer großen Menge an neuen Daten zu gewinnen. Es wird dabei keine bestimmte Ausgabe vorhergesagt, wodurch das Trainingsverfahren oft sehr komplex ist.

Anwendungen

Natürlich unterscheiden sich ebenfalls die Anwendungsgebiete von überwachten und unüberwachten Lernen. Das überwachte Lernen wird für die Klassifizierung und Regression in gelabelten Datensätzen genutzt. Anwendungen wie Text- und Bilderkennung oder die Preis- und Wettervorhersage zählen zu ihren häufigsten Anwendungen.
Unüberwachtes Lernen hingegen arbeitet mit Clustering und Assoziationen, um beispielsweise Anomalien zu erkennen, Kundenverhalten vorherzusagen oder um das Rauschen aus einem Datensatz zu entfernen.

Algorithmen

Zwangsläufig unterscheiden sich die genutzten Algorithmen beim überwachten und unüberwachten Lernen, da verschiedene Aufgaben damit bewältigt werden müssen. Die am häufigsten genutzten Algorithmen sind beim Supervised Learning Entscheidungsbäume, Random Forest, lineare Klassifikatoren, naive Bayes-Klassifikator, k-Nearest-Neighbor-Klassifikator und Support Vector Machine für die Klassifizierung. Für Regressionsanalysen werden lineare und logistische Regression, sowie Polynomregression verwendet.
Beim Unsupervised Learning wird für das Clustering beispielsweise K-Means-Clustering und hierarchisches Clustering genutzt. Und bei Assoziationsproblemen unter anderen der Apriori oder der Eclat Algorithmus.

Was ist Semi-Supervised Learning?

Semi-Supervised Learning ist eine Mischung aus Supervised und Unsupervised Learning und kombiniert beschriftete und unbeschriftete Datensätze für das Training. Halbüberwachtes Lernen wird angewendet, wenn eine große Menge an Daten vorhanden, aber nur eine kleine Menge davon gelabelt ist. Dann wird der Algorithmus zuerst mit den gekennzeichneten Daten trainiert, wie beim Supervised Learning. Sobald das Modell gut funktioniert, wird es verwendet, um die verbleibenden unbeschrifteten Daten vorherzusagen und sie mit den entsprechenden Lösungen zu labeln.
Dann ist ein Training mit dem kompletten Datensatz aus gelabelten und „pseudo-gelabelten“ Daten möglich.

Was sind die Unterschiede von Supervised Learning und Reinforcement Learning?

Lernprinzip und Daten

Das Prinzip des Reinforcement Learning (zu Deutsch bestärkendes Lernen) unterscheidet sich grundlegend vom Supervised Learning. Während beim überwachten Lernen die Trainingsdaten bereits die Antwort enthalten, gibt es beim verstärkenden Lernen keine vorgegebene richtige Antwort. Der Agent, der mittels Reinforcement Learning trainiert wird, entscheidet selbst, wie er vorgeht und lernt nur mittels eigener Erfahrungen. Er muss dementsprechend geeignete Maßnahmen finden, um seine Belohnung zu maximieren und die gegebene Aufgabe zu lösen. Im Prinzip lernt der Agent durch Trial-and-Error, das heißt, indem er Fehler macht und diese nicht wiederholt, wird er stetig besser und findet die passende Lösung.

Ziel und Anwendungen

Wie bereits beschrieben, ist Supervised Learning für Klassifikation und Prognosen zu nutzen. Das Ziel ist dabei klar definiert, zum Beispiel bei der Erkennung von Spam-E-Mails.
Reinforcement Learning kommt für weitaus komplexere Aufgaben infrage, zum Beispiel wenn der Agent nur mithilfe von Interaktionen in seiner Umgebung lernen kann. Dies ist zum Beispiel beim Erlernen von den Brettspielen Schach, Go und Shogi der Fall. Sehr berühmte Künstliche Intelligenzen, die diese Spiele mitunter durch Reinforcement Learning gemeistert haben, sind AlphaZero und AlphaGo von Google DeepMind.

<a href="https://www.alexanderthamm.com/de/blog/author/patrick/" target="_self">Patrick Kinter</a>

Patrick Kinter

Pat ist seit Ende 2021 für den Bereich Web Analyse & Web Publishing bei der Alexander Thamm GmbH zuständig und überwacht einen Großteil unserer Onlinepräsenzen. Dabei schlägt er sich durch jedes Google oder Wordpress Update und gibt dem Team gerne Tipps, wie Ihre Beiträge oder eigenen Websites noch verständlicher für den Leser sowie die Suchmaschinen werden.

0 Kommentare

Einen Kommentar abschicken

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert