Supervised Learning: Kompakt erklärt

Veröffentlicht: 10.08.2022
Kategorie: Grundlagen

Inhaltsverzeichnis

Supervised Learning, hero image, Alexander Thamm [at]

Was ist Supervised Learning?

Supervised Learning (im Deutschen überwachtes Lernen) ist ein Lernansatz für Algorithmen, um Prognosen oder Einordnungen zu tätigen. Dafür bildet der Algorithmus ein Modell, welches die ihm gegebene Aufgabe bestmöglich lösen kann, wie zum Beispiel ein Entscheidungsbaum oder eine Regressionsanalyse.
Eine durch Supervised Learning trainierte Künstliche Intelligenz (Artificial Intelligence, kurz AI oder KI) ist in der Lage, eigenständig Klassifizierungen (beispielsweise von Texten oder Objekten) vorzunehmen, oder Vorhersagen (zum Beispiel über Preisentwicklungen oder das Wetter) abzugeben. Vorab wird sie durch eine große Menge an gelabelten Trainingsdaten trainiert. Dadurch besteht beim Supervised Learning ein hoher Aufwand bei der Erfassung und Vorbereitung der nötigen Datensätze.
Als „überwachtes Lernen“ wird es bezeichnet, da der Algorithmus durch die Trainingsdaten so lernt, als würde er von einem Lehrer überwacht werden, der die korrekten Antworten bereits weiß. Supervised Learning ist ein essentieller Teilbereich von Machine Learning (maschinelles Lernen) und wird deshalb auch Supervised Machine Learning (überwachtes maschinelles Lernen) genannt.

Wie funktioniert Supervised Learning?

Für das überwachte Lernen wird ein Algorithmus mit einem großen Satz an Trainingsdaten geschult. Der Datensatz besteht dabei aus Eingabedaten und der korrekten Ausgabe (Lösungen). Die Eingabewerte sind dabei so beschriftet (gelabelt), dass sie mit den gewünschten Lösungen zusammengehören. Dadurch kann der Lernalgorithmus ein Modell (zum Beispiel ein Random Forest oder einen Entscheidungsbaum) entwickeln, indem er die Zusammenhänge zwischen den Ein- und Ausgabedaten erkennt. Auf dieser Basis erstellt er Prognosen für einen neuen Datensatz.

Die Güte des Modells wird anhand von Testverfahren wie Kreuzvalidierung (Cross Validation), Vertrauenswahrscheinlichkeit, Genauigkeit oder Trefferquote bestimmt. Je mehr Datensätze zum Üben zur Verfügung stehen, desto bessere Ergebnisse kann der Algorithmus liefern. Der Lernprozess wird dabei so lange wiederholt, bis das Modell zufriedenstellende Lösungen liefert. Ist die Trainingsphase beendet, kann das Modell unbekannte Eingabedaten mithilfe seiner erlernten Methoden analysieren und die richtige Prognose oder Einordnung treffen.

Supervised Learning Algorithmen

Beim überwachten Lernen werden die Algorithmen in zwei Probleme unterschieden: in Klassifizierung oder Regression.

Klassifizierung

Bei der Klassifizierung hat der Algorithmus das Ziel, die Eingabedaten bestimmten Kategorien zuzuordnen. Dafür erkennt er bestimmte Merkmale und Muster innerhalb des Datensatzes und versucht, Gemeinsamkeiten und Unterschiede zu finden, um eine entsprechende Einordnung vorzunehmen. Kategorien können dabei zum Beispiel „Katze“ und „Hund“ oder „grün“ und „orange“ sein.

Beispiele für Klassifizierungsalgorithmen:

• Entscheidungsbäume
• Random Forest
• Lineare Klassifikatoren
• Naive Bayes-Klassifikator
• k-Nearest-Klassifikation
• Support Vector Machine

Regression

Bei der Regression versucht der Algorithmus, die Zusammenhänge zwischen abhängigen und unabhängigen Variablen zu erkennen und bezieht sich dabei auf kontinuierliche Daten. Regressionsalgorithmen werden vorrangig für Prognosen verwendet, wie zum Beispiel Wahl- und Kaufprognosen oder die Vorhersage der Preisentwicklung einer Immobilie.

Beispiele für Regressionsalgorithmen:

• Lineare Regression
• Logistische Regression
• Polynomregression

Recommender, Clustering, Regression, Text Analytics, Anomaly Detection etc.:
Machine Learning kann heute für vielfältige Problemstellungen eingesetzt werden und ist dabei schneller und genauer denn je. Aber was hat es mit den Algorithmen dahinter auf sich?

Top 10 ML Algorithmen für Einsteiger

Warum ist Supervised Learning wichtig?

Supervised Learning ist der am häufigsten genutzte Algorithmus für Machine Learning. Das liegt daran, dass er viele Aufgaben effizient und unproblematisch lösen kann. Aber nicht alle Gebiete des maschinellen Lernens können mit ihm abgedeckt werden.
Der große Vorteil vom überwachten Lernen liegt darin, dass man die Ausgabe des Modells sehr konkret bestimmen kann. Somit ist jederzeit bekannt, was das Ziel des Modells ist. Zum Beispiel kann ein Klassifizierungsalgorithmus konkret darauf trainiert werden, in Bildern eine bestimmte Art von Straßenschildern zu erkennen. Nachteilig ist der große Aufwand bei der Datenerfassung und deren Bereitstellung zum Training.

Was sind Vor- und Nachteile von Supervised Learning?

Vorteile

Das Ziel, beziehungsweise die Ausgabe, des Algorithmus steht von Anfang an fest und kann direkt bestimmt und beeinflusst werden. Die Kategorien können sehr spezifisch vorgegeben werden und es ist vorher bekannt, wie viele es davon gibt. Supervised Learning ist im Vergleich zu den anderen Arten des Machine Learning relativ einfach zu verstehen. Nachdem das Modell fertig trainiert ist, braucht es kein weiteres Training, um Ergebnisse zu liefern. Es funktioniert einfach nach der gelernten Formel. Überwachtes Lernen kann generell sehr gut Klassifizierungsprobleme lösen.

Nachteile

Der Umfang der Trainingsdaten muss sehr groß sein, um gute Ergebnisse zu erzielen. Wird beispielsweise ein Klassifizierungsalgorithmus nur mit den Klassen „Vogel“ und „Maus“ trainiert und soll später ein Bild mit einer Katze einordnen, so wird er das Bild zwangsläufig falsch zuordnen. Die Daten müssen gelabelt sein, sonst kann der Algorithmus sie nicht einordnen. Da Supervised Learning recht einfach funktioniert, ist es für komplexe Aufgaben des maschinellen Lernens ungeeignet.

Anwendungsbereiche von Supervised Learning

Supervised Machine Learning wird je nach Anwendungsgebiet für Einordnungen (Klassifizierungen) oder Prognosen genutzt. Besonders beliebt ist es für:

• Textklassifizierung
• Bildklassifizierung
• Spamerkennung
• Gesichtserkennung
• Tumorerkennung
• Drogenerkennung
• Predictive Maintenance
• vorausschauende Analysen wie Hauspreise oder Börsenkurse
• Kundenstimmungsanalyse
• Wettervorhersagen

Beispiele für Supervised Learning in der Praxis

Supervised Learning in der Medizin

Im medizinischen Sektor wird Machine Learning in immer mehr Bereichen genutzt. Bereits seit einigen Jahren wird Supervised Learning auch bei der frühzeitigen Krebserkennung und deren Prognosen angewandt. Damit werden Modelle entwickelt, die den Verlauf und die Behandlung von Krebserkrankungen vorhersagen können. Außerdem können trainierte Algorithmen wichtige Merkmale aus komplexen Datensätzen erkennen und erleichtern damit die Arbeit des menschlichen Fachpersonals.

Supervised Learning in der Industrie

In der Industrie wird überwachtes Lernen unter anderem im Bereich der Predictive Maintenance eingesetzt. Damit werden nötige Wartungen festgestellt, um Ausfälle zu verhindern. Zum Beispiel können damit Motoren mit Sensordaten und Zustandsindikatoren so überwacht werden, dass der Verschleiß gemessen wird und die Restnutzungsdauer (Remaining Useful Life) berechnet wird. Das dafür genutzte Modell liefert dann neben den erhobenen Daten auch die Information zu möglichen Wartungsarbeiten, um die Lebensdauer zu erhöhen und Ausfälle zu vermeiden.

Vorausschauende Instandhaltung mithilfe von AI ist eine Automatisierungsaufgabe, bei der ein grundlegendes Verständnis des Prozesses und der daraus generierten Daten notwendig ist und somit meist einer individuellen Lösung bedarf. Wir helfen Ihnen gerne bei der Beratung und Implementierung in Ihre Unternehmensprozesse:

Predictive-Maintenance-Services

Was sind die Unterschiede von Supervised Learning und Unsupervised Learning?

Daten

Der entscheidende Unterschied zwischen Supervised und Unsupervised Learning liegt bei den Trainingsdaten. Beim überwachten Lernen sind die Eingabedaten gelabelt und gehören zu passende Ausgabedaten. Beim unüberwachten Lernen gibt es nur Eingabedaten ohne Merkmale und ohne die passenden Lösungen. Dadurch muss hierbei ein Modell entwickelt werden, indem Muster in den Daten selbst erkennt werden. Deshalb wird es unüberwachtes Lernen genannt, da es keinen „Lehrer“ gibt, der die richtigen Antworten hat.

Ziel

Auch die Zielsetzung beider Lernansätze ist unterschiedlich: beim Supervised Learning ist die Art der Ausgabe bereits bekannt und muss für neue unbekannte Eingabedaten vorhergesagt werden. Beim Unsupervised Learning liegt das Ziel darin, Erkenntnisse aus einer großen Menge an neuen Daten zu gewinnen. Es wird dabei keine bestimmte Ausgabe vorhergesagt, wodurch das Trainingsverfahren oft sehr komplex ist.

Anwendungen

Natürlich unterscheiden sich ebenfalls die Anwendungsgebiete von überwachten und unüberwachten Lernen. Das überwachte Lernen wird für die Klassifizierung und Regression in gelabelten Datensätzen genutzt. Anwendungen wie Text- und Bilderkennung oder die Preis- und Wettervorhersage zählen zu ihren häufigsten Anwendungen.
Unüberwachtes Lernen hingegen arbeitet mit Clustering und Assoziationen, um beispielsweise Anomalien zu erkennen, Kundenverhalten vorherzusagen oder um das Rauschen aus einem Datensatz zu entfernen.

Algorithmen

Zwangsläufig unterscheiden sich die genutzten Algorithmen beim überwachten und unüberwachten Lernen, da verschiedene Aufgaben damit bewältigt werden müssen. Die am häufigsten genutzten Algorithmen sind beim Supervised Learning Entscheidungsbäume, Random Forest, lineare Klassifikatoren, naive Bayes-Klassifikator, k-Nearest-Neighbor-Klassifikator und Support Vector Machine für die Klassifizierung. Für Regressionsanalysen werden lineare und logistische Regression, sowie Polynomregression verwendet.
Beim Unsupervised Learning wird für das Clustering beispielsweise K-Means-Clustering und hierarchisches Clustering genutzt. Und bei Assoziationsproblemen unter anderen der Apriori oder der Eclat Algorithmus.

Unsupervised Machine Learning ist ein leistungsstarkes Werkzeug, um wertvolle Erkenntnisse aus Daten zu gewinnen. Erfahren Sie in unserem Grundlagenbeitrag, welche Algorithmen eingesetzt werden, um Aufgaben wie die Anomalieerkennung oder die Generierung von Daten zu erledigen.

Unsupervised Learning: Kompakt erklärt

Was ist Semi-Supervised Learning?

Semi-Supervised Learning ist eine Mischung aus Supervised und Unsupervised Learning und kombiniert beschriftete und unbeschriftete Datensätze für das Training. Halbüberwachtes Lernen wird angewendet, wenn eine große Menge an Daten vorhanden, aber nur eine kleine Menge davon gelabelt ist. Dann wird der Algorithmus zuerst mit den gekennzeichneten Daten trainiert, wie beim Supervised Learning. Sobald das Modell gut funktioniert, wird es verwendet, um die verbleibenden unbeschrifteten Daten vorherzusagen und sie mit den entsprechenden Lösungen zu labeln.
Dann ist ein Training mit dem kompletten Datensatz aus gelabelten und „pseudo-gelabelten“ Daten möglich.

Was sind die Unterschiede von Supervised Learning und Reinforcement Learning?

Lernprinzip und Daten

Das Prinzip des Reinforcement Learning (zu Deutsch bestärkendes Lernen) unterscheidet sich grundlegend vom Supervised Learning. Während beim überwachten Lernen die Trainingsdaten bereits die Antwort enthalten, gibt es beim verstärkenden Lernen keine vorgegebene richtige Antwort. Der Agent, der mittels Reinforcement Learning trainiert wird, entscheidet selbst, wie er vorgeht und lernt nur mittels eigener Erfahrungen. Er muss dementsprechend geeignete Maßnahmen finden, um seine Belohnung zu maximieren und die gegebene Aufgabe zu lösen. Im Prinzip lernt der Agent durch Trial-and-Error, das heißt, indem er Fehler macht und diese nicht wiederholt, wird er stetig besser und findet die passende Lösung.

Ziel und Anwendungen

Wie bereits beschrieben, ist Supervised Learning für Klassifikation und Prognosen zu nutzen. Das Ziel ist dabei klar definiert, zum Beispiel bei der Erkennung von Spam-E-Mails.
Reinforcement Learning kommt für weitaus komplexere Aufgaben infrage, zum Beispiel wenn der Agent nur mithilfe von Interaktionen in seiner Umgebung lernen kann. Dies ist zum Beispiel beim Erlernen von den Brettspielen Schach, Go und Shogi der Fall. Sehr berühmte Künstliche Intelligenzen, die diese Spiele mitunter durch Reinforcement Learning gemeistert haben, sind AlphaZero und AlphaGo von Google DeepMind.

Entdecke das Potenzial des beliebten Machine-Learning-Verfahrens Reinforcement Learning, um komplexe Steuerungsprobleme zu lösen – erfahre in diesem Blogbeitrag, wie es funktioniert und welches konkrete Potenzial es birgt.

So funktioniert Reinforcement Learning

Diesen Beitrag teilen:

Anbieter:	HubSpot, Inc., 25 First Street, Cambridge, MA 02141, USA
Cookiename:	__hstc; hubspotutk; __hssc; __hssrc; __cf_bm; __cfruid
Laufzeit:	6 Monate; 6 Monate; 30 Minuten; Sitzungsende; 30 Minuten; Sitzungsende
Datenschutzlink:	https://legal.hubspot.com/de/privacy-policy
Host:	.hubspot.com

Anbieter:	InnoCraft Ltd., 150 Willis St, 6011 Wellington, New Zealand
Cookiename:	_pk_id..; _pk_ses..
Laufzeit:	13 Monate; 30 Minuten
Datenschutzlink:	https://matomo.org/gdpr-analytics/
Host:	.matomo.cloud

Anbieter:	Google Ireland Limited, Gordon House, Barrow Street, Dublin 4, Ireland
Cookiename:	YSC; VISITOR_INFO1_LIVE; PREF
Laufzeit:	Sitzungsende; 6 Monate; 8 Monate
Datenschutzlink:	https://policies.google.com/privacy?hl=de
Host:	.youtube.com

Anbieter:	Podigee GmbH, Revaler Straße 28, 10245 Berlin, Deutschland
Cookiename:	Nicht spezifiziert
Laufzeit:	Nicht spezifiziert
Datenschutzlink:	https://www.podigee.com/de/ueber-uns/datenschutz/
Host:	.podigee.com

Anbieter:	Google Ireland Limited, Gordon House, Barrow Street, Dublin 4, Irland
Cookiename:	SID; HSID; NID
Laufzeit:	2 Jahre; 2 Jahre; 6 Monate
Datenschutzlink:	https://policies.google.com/privacy?hl=de
Host:	.google.com