Machine Learning Methoden – Teil 2/3: Classification & Regression

Machine Learning Classification

Wie bereits im ersten Teil der Serie über Machine Learning Methoden angedeutet, handelt es sich bei Classification und Regression um die beiden klassischen Machine Learning Methoden im Bereich Supervised Machine Learning. Der zweite Teil der Serie beschäftigt sich darum mit Classification- und Regression-Algorithmen.

Supervised Machine Learning funktioniert nach einem immer gleichen Grundmuster. Am Beginn des Lernvorgangs ist eine bestimmte Anzahl von bereits klassifizierten Daten vorhanden beziehungsweise bekannt. Das bei dem Lernvorgang ein Algorithmus so „trainiert“ wird, dass er irgendwann auch mit unbekannten Daten exakte Vorhersagen machen kann (Prediction), nennt man diese Daten auch Trainingsdaten.

#SupervisedMachineLearning verfolgt das Ziel, möglichst genaue Vorhersagen oder eine bessere Entscheidungsgrundlage liefern. Die gängigsten #Methoden: #Regression und #Classification Klick um zu Tweeten

Beim Supervised Machine Learning ist das Ergebnis am Anfang des Lernvorgangs bekannt

Mit diesen Trainingsdaten wird der Algorithmus so lange unter Aufsicht der Data Scientists trainiert, bis er dazu in der Lage ist, ein erlerntes Prinzip der Classification oder Regression anzuwenden. Darum nennt sich dieser Lernvorgang auch „überwacht“ bzw. „supervised“. Die folgende Abbildung zeigt schematisch die drei Phasen eines solchen Lernvorgangs:

Training Data, Model, Verhersage

Die Trainingsdaten weisen eine bestimmte Struktur auf. Wenn ein Algorithmus einmal das Classification-Modell erlernt hat, mit dem sich diese Daten klassifizieren lassen, können auch zukünftige, neue Datenpunkte entsprechend einsortiert werden.

Die Vorgehensweise beim Supervised Machine Learning lässt sich auch als Formel darstellen:

Y = f(X)

Dabei lautet die Frage: Was ist „f“, wenn Y und X bekannt sind, wobei Y für das Input-Data-Set steht und X für das Output-Data-Set?

Linktipp: Profitieren Sie vom Wissen und der Praxiserfahrung unserer Dozenten in der nächsten Supervised Machine Learning Schulung für Einsteiger.

Die Unter- und Sonderformen der Classification

Es gibt nicht den einen Algorithmus beziehungsweise Verfahren, um alle Classification-Aufgaben zu lösen. Es gibt vielmehr eine große Vielfalt an Unter- und Sonderformen. Viele von ihnen haben einen Ursprung in der Mathematik bzw. Statistik.

Lineare Classification

Die Lineare Classification – manchmal auch als „Linear Classifier“ bezeichnet – zielt darauf ab, eine ganz bestimmte, lineare Funktion zu bestimmen. Diese Funktion beschreibt eine Grenze, die Daten in zwei Klassen unterteilt:

IDagemax. speedcar typerisk
118230compact carhigh
221180roadsterhigh
345240roadsterhigh
435100trucklow
555160familylow
Machine Learning Classification der Tabelle

Beschreibung: Die Daten aus der Tabelle werden in ein Koordinatensystem übertragen, wo eine lineare Funktion sie in zwei Klassen aufteilt.

Was sich zunächst nach einer sehr einfachen Methode anhört, findet in zahlreichen und teilweise komplexen Variationen Anwendung. Zu den beliebtesten Linear Classifiers zählen Support Vector Machines. Diese werden angewandt, um Daten in einem Vektorraum in zwei unterschiedliche Klassen zu unterteilen. Die „Kunst“ bei der Linearen Klassifikation besteht darin, den Linear Classifier so optimal wie möglich zu definieren.

Mögliche versus optimale Hyperebene (hyperplane)

Bei der Linearen Klassifikation muss ein optimaler Verlauf für den Linear Classifier gefunden werden.

Nearest Neighbour oder die NN-Classification

Die Nächste-Nachbarn (NN) Klassifikation beziehungsweise der Nearest Neighbour Classifier ist eine einfache Methode mit dem Ziel, ähnliche Objekte zu identifizieren. In der Trainingsphase wird ein Algorithmus darauf trainiert, die Ähnlichkeit zwischen verschiedenen Trainingsobjekten zu finden.

next-neighbour-classification

In diesem Fall ist der Nächste Nachbar des Objekts q, NN(q) = „dog“.

Der Bayes Classifier

Eine Form von Classification ist der sogenannte Bayes Classifier. Dabei handelt es sich um einen wahrscheinlichkeitsbasierten Ansatz, der auf den Satz von Bayes zurückgeht – ein mathematisches Theorem des britischen Mathematikers Thomas Bayes. Der Bayes Classifier wird oft zur Bestimmung von Kostenmaß oder Risiken genutzt.

Ausgangsbasis sind auch hier vorhandene Trainingsdaten. Diese Datensätze sind nach einer bestimmten Wahrscheinlichkeit ihrer Zugehörigkeit in bestimmte Klassen sortiert. Je mehr Daten beim Training zur Verfügung stehen, desto präziser erfolgt die Klassifizierung. Ein Beispiel aus der Praxis kann verdeutlichen, wie mit Classification ein konkreter Nutzen entstehen kann.

Credit Scoring: Das leistet Classification in der Praxis

Für einen unserer Kunden aus dem Banking-Bereich entwickelten wir mit der Hilfe eines Classification-Algorithmus ein Scoring-System zur besseren Beurteilung des Ausfallsrisikos bei der Kreditvergabe (Credit Scoring). Es ging um kleine Notfall-Kredite zwischen 100 und 200 Euro. Da die meisten Kunden Einträge bei der Schufa hatten, musste ein alternatives Bewertungssystem entwickelt werden.

Um die Ausfallwahrscheinlichkeit zu ermitteln, nutzten wir Daten aus der persönlichen Kredithistorie und Transaktionen und auch von Social-Media-Aktivitäten. So konnten wir die Kunden nach bestimmten Kriterien in Gruppen klassifizieren, die Aussagekraft über die Zahlungsmoral beziehungsweise die Rückzahlwahrscheinlichkeit zuließ.

#MachineLearning in der Praxis: Dank #Classification lässt sich ein Scoring System entwickeln, mit dem die Zahlungsmoral von Kreditnehmern berechenbar wird. Klick um zu Tweeten

Decision Trees oder Entscheidungsbäume helfen dann, wenn zwei mögliche Optionen im Raum stehen

Eine weitere wichtige Sonderform zur Klassifikation von Daten sind Entscheidungsbäume, bzw. Decision Trees. Dabei nimmt das trainierte Machine Learning Modell eine Baumstruktur an. Dieses Modell ist besonders intuitiv verständlich, so dass die Classification anhand von leicht nachvollziehbaren Kriterien erfolgt.

In der Praxis werden oft mehrere Decision Trees in Kombination miteinander angewandt, um die Genauigkeit der Entscheidungen zu erhöhen. In diesem Zusammenhang wird dann auch von Forest gesprochen.

training data Tabelle, erlernter Entscheidungsbaum (decision tree)

Ein einfaches Beispiel für einen Decision Tree zeigt hier die Risikobewertung im Bereich Versicherungen.

Regression als zweite wichtige Unterkategorie der Supervised Machine Learning Methoden

Regressions-Aufgaben wirken auf den ersten Blick sehr ähnlich zu den Klassifikationsaufgaben, dienen aber doch zur Beantwortung anders gelagerter Fragestellungen. Das lässt sich einfach an einem konkreten Beispiel erläutern. Verspätungen bei der Bahn oder im Flugverkehr sind an der Tagesordnung und darum ist es wichtig zu wissen, wie wahrscheinlich diese sind.

So lassen sich Flüge in zwei Klassen „a“ und „b“ aufteilen – „a“ sind die verspäteten und „b“ die nicht verspäteten Flüge. Ein Classification-Model würde darauf trainiert, vorherzusagen, wie wahrscheinlich ein bestimmter Flug mit Verspätung ankommt. Als Grundlage für die Classification können dabei beispielsweise die vorherrschenden Windbedingungen herangezogen werden.

Bei einem Regressions-Model wird im Gegensatz dazu vielmehr ein Zusammenhang zwischen Input und Output hergestellt. Eine Fragestellung für ein Regressions-Modell könnte lauten: Welche Anzahl an Minuten wird ein Flug bei bestimmten Windbedingungen wahrscheinlich Verspätung haben?

Classification und Regression sind die Grundelemente Künstlicher Intelligenz

Um die Bedeutung der Machine Learning Methoden wie Classification und Regression richtig zu erfassen, ist es wichtig sich vor Augen zu halten, dass diese die Grundelemente dessen darstellen, was unter den Begriff der Künstlichen Intelligenz gefasst wird.

Die mathematischen bzw. statistischen Verfahren helfen intelligenten Systemen dabei, das Ordnen von Dingen und Ereignissen zu lernen. Sie machen dies selbstverständlich nicht bewusst, sondern wie in diesem Fall mit der Hilfe von Data Scientists, die die Lernvorgänge überwachen. Wie dies im Fall von unüberwachten Lernvorgängen funktioniert, erklärt der dritte Teil der Serie über Machine Learning Methoden.

Hier geht es zu Teil 1/3 Hier geht es zu Teil 3/3

 

Sie möchten sich im Bereich Machine Learning fortbilden? Neben unserer Machine Learning Schulung für Einsteiger bieten wir auch eine Supervised Machine Learning Schulung sowie eine Unsupervised Machine Learning Schulung an.

Ich möchte mehr über die Schulungen der Data Academy erfahren

 

Tags

top