Was ist ein Klassifikationsverfahren?

Klassifikationsverfahren sind Methoden und auch Kriterien, die zu einer Einteilung (Klassifizierung) von Objekten und Situationen in Klassen dienen. Viele Verfahren lassen sich einfach als Algorithmus implementieren und werden als maschinelle oder automatische Klassifikation bezeichnet. Die Klassifikationsverfahren sind dabei immer anwendungsbezogen und es existieren viele verschiedene Methoden. Klassifikationsverfahren spielen eine Rolle bei Mustererkennung, in der künstlichen Intelligenz, bei der Dokumentationswissenschaft und beim Information Retrieval.

Was sind Arten von Klassifikationsverfahren?

Es gibt Klassifikationsverfahren mit unterschiedlichen Eigenschaften. So gibt es automatische und manuelle Verfahren, numerische und nichtnumerische Verfahren, statistische und verteilungsfreie Verfahren, überwachte und nichtüberwachte Verfahren, fest dimensionierte und lernende Verfahren sowie parametrische und nichtparametrische Verfahren.

Im Data Mining werden zur Klassifikation von Objekten Entscheidungsbäume, Neuronale Netze, die Bayes-Klassifikation und auch das Nächste-Nachbarn-Verfahren eingesetzt. Meistens sind die Klassifikationsverfahren zweistufig aufgebaut. Es gibt eine Lernphase mit Trainingsdaten und schließlich die Klassifikationsphase.

Entscheidungsbäume

Daten durchlaufen bei diesem Verfahren einen Entscheidungsbaum. Es werden die Merkmalsausprägungen von Objekten an jedem einzelnen Knoten geprüft und es wird ermittelt, welcher Pfad im Baum nun weiter verfolgt wird. Schließlich wird grundsätzlich ein Blattknoten erreicht und dieser ist dann die Klasse von dem Objekt. Der Entscheidungsbaum wird grundsätzlich mithilfe von Trainingsobjekten erstellt. Dabei kommt ein rekursiver Divide-and-Conquer-Algorithmus zum Einsatz. Vorteilhaft ist, dass alle ermittelten Regeln ganz einfach interpretiert werden können. Eine Clusteranalyse kann mit den ermittelten Klassen durch Anwendung von Entscheidungsbäumen besser verstanden werden.

Neuronale Netze

Die Neuronalen Netze bestehen aus verschiedenen Knoten (Neuronen), welche untereinander in Verbindung stehen. Solch ein neuronales Netz besteht aus mehreren Schichten. Diese Knoten aller einzelnen Schichten sind jeweils an den Schichtübergängen miteinander verknüpft. Jede Verbindung hat dabei ein eigenes Kantengewicht. Zu Beginn des Trainings werden solche Gewichtungen zufällig festgelegt. Das Kantengewicht kann entscheiden, zu welchem Knoten ein Objekt als Nächstes gelangen kann, um schließlich zu einem Ausgangsknoten zugeordnet zu werden. Jeder Ausgabeknoten in der Ausgabeschicht steht für eine Klasse. Je nachdem, wie der Aktivierungspfad von einem Objekt ist, wird ein gewisser Ausgabeknoten aktiv. Schließlich findet das Lernen durch eine Überprüfung statt, indem Ist- und Ziel-Ergebnisse mit den Trainingsdaten verglichen werden. Fehler werden ganz einfach in das neuronale Netz zurückgeführt und dadurch werden Kantengewichte sukzessive angepasst. Es werden besonders gut Ausreißer in den Daten erkannt. Die Klassifikationsergebnisse werden hingegen kaum nachvollziehbar ermittelt.

Bayes-Klassifikation

Bei der Bayes-Klassifikation wird eine Klassenzuordnung auf der Basis von Wahrscheinlichkeiten aller Merkmalsausprägungen vorgenommen. Jedes Objekt wird seiner Klasse zugeordnet, indem die Wahrscheinlichkeit vom Auftreten der jeweiligen Merkmalskombination ermittelt wird. Jedes Auftreten wird durch die jeweiligen Trainingsdaten annähernd geschätzt. Vorteilhaft ist, dass eine hohe Genauigkeit der Einordnung erreicht wird, wenn dieses Verfahren bei großen Datenmengen angewandt wird. Der Nachteil ist allerdings, dass bei einer falsch angenommenen Verteilung oder auch Merkmalsunabhängigkeit die jeweiligen Ergebnisse ungenau und ganz verfälscht werden.

Nächstes-Nachbarn-Verfahren

Bei diesem Verfahren können Objekte untereinander genau verglichen werden und schließlich einer Klasse zugeordnet werden. Ein Vergleich erfolgt bei ähnlichen Trainingsobjekten. Die Vergleichsbasis bildet dabei das zuvor festgelegte Distanz- oder Ähnlichkeitsmaß. Nun gilt als Ergebnisklasse die am häufigsten vorkommende Klasse, bei welcher die Objektvergleiche auftreten. Vorteilhaft ist die Anwendbarkeit auf entsprechend qualitative und quantitative Merkmale der Objekte. Nachteilig ist die äußerst aufwendige Klassifikationsphase, denn es müssen immer die gesamten Trainingsdaten für jeden Vergleich herangezogen werden.

Beispiele aus dem Bereich der Data Science

Im Bereich von Data Mining werden Analysen von Big Data vorgenommen. So werden große Datenmengen effizient verarbeitet und es sollen zuverlässige und leicht interpretierbare Ergebnisse erzielt werden. Eine kurze Verarbeitungszeit ist das Ziel. Es sollen verschiedenartige Datenstrukturen verarbeitet werden können, wie etwa Textanalysen, Bildverarbeitung, Zahlen, Koordinaten und ähnliches.

Text Mining dient zur Extraktion von interessanten und von nicht-trivialem Wissen aus ganz unstrukturierten oder schwach strukturierten Texten. Eine Rolle spielt dabei Information Retrieval, Data Mining, maschinelles Lernen, Statistik und Computerlinguistik. Textanalysen wie Clusteranalysen, Klassifizierung von Texten und der Aufbau eines entsprechenden Frage-Antwort-Systems werden beim Text Mining eingesetzt.

Worin unterscheiden sich Klassifikation und Regression?

Regression ist die Vorhersage von stetigen Werten. Trainiert wird dabei mithilfe von Backpropagation. Diese ist ein Optimierungsverfahren, das unter Einsatz von einer Gradientenmethode eingesetzt wird, um den Fehler einer Forwardpropagation direkt zu berechnen und die Gewichtungen entgegen dem Fehler anzupassen. Durch Vollzug der Backpropagation erhält man die „richtigen“ Gewichtungen. Bei der Klassifikation hingegen können Gruppenzugehörigkeiten vorhergesagt werden.

Mathematisch unterscheiden sich Regression und Klassifikation nicht allzu sehr voneinander. Es können sogar viele Verfahren der Klassifikation mit nur wenig Anpassungen auch für die Regression eingesetzt werden und umgekehrt.

Künstliche neuronale Netze, Nächste-Nachbar-Verfahren und Entscheidungsbäume sind Beispiele dafür, dass diese in der Praxis sowohl zur Klassifikation als auch zur Regression eingesetzt werden. Unterschiedlich ist aber auf jeden Fall der Zweck, der bei der Anwendung besteht: Bei Regression will man stetige Werte vorhersagen (wie etwa die Temperatur einer Maschine) und bei der Klassifikation will man Klassen unterscheiden (wie etwa „Maschine überhitzt“ oder „überhitzt nicht“).

Die gängigste Methode, bei der Klassifikationsprobleme im überwachten maschinellen Lernen bewältigt werden können, ist die logistische Regression.