Was ist Decision Tree Learning?

Decision Tree Learning ist ein Verfahren, das im maschinellen Lernen eingesetzt wird. Die Entscheidungsbäume sind eine weit verbreitete Möglichkeit der Regression oder der Klassifikation über einen großen, vielfältigen Datensatz. Einsatzgebiete sind die Klassifikation der Kreditwürdigkeit von Bankkunden oder aber eine Funktion zur Vorhersage von Kaufkraft.

Entscheidungsbäume sind ein beliebtes Mittel der Informatik und des Maschinenbaus für Konstruktionsstrukturen. Im Data Science werden Algorithmen genutzt, die automatisch Baumstrukturen aus einer Menge von bekannten Daten heraus generieren und eine automatische Klassifikation bzw. Regression vornehmen können. Decision Trees werden im überwachten maschinellen Lernen genutzt, um hierarchische Strukturen mit möglichst wenigen Entscheidungswegen zu bilden.

Elemente eines Entscheidungsbaums

Ein Entscheidungsbaum besteht aus Knoten, Kanten und Blättern. Die Knoten dienen zum Test auf einen Wert eines gewissen Attributes. Die Kanten korrespondieren zu einem Endergebnis eines Tests und sie verbinden zum nächsten Knoten oder Blatt. Die Blätter sind Endknoten, die das Ergebnis vorhersagen. Eine Klassifikation geht dann folgendermaßen.

  1. Beginne beim Wurzelknoten
  2. Führe den Test durch
  3. Folge der korrespondierenden Kante zum Ergebnis
  4. Solange es kein Blatt ist, gehe wieder zu 2. und wiederhole den Prozess
  5. Mache eine Vorhersage für das Ergebnis das mit dem Blatt assoziiert wird

Bei Decision Tree Learning wird ein neues Beispiel klassifiziert und durch eine Reihe von Tests geschickt um ein Klassenlabel für das Beispiel zu erhalten. Diese Tests sind in einer hierarchischen Struktur organisiert die Decision Tree genannt wird. Die Trainingsbeispiele werden verwendet, um geeignete Tests in dem Decision Tree zu wählen. Der Baum wird aufgebaut von oben nach unten, wobei Tests, die den Informationsgewinn über die Klassifikation maximieren, zuerst gewählt werden.

Wofür werden Decision Tree Learning verwendet?

Ein Entscheidungsbaum wird als prädiktives Modell genutzt um durch Beobachtungen über ein gewisses Element, das in den Zweigen dargestellt wird, zu Schlussfolgerungen über den entsprechenden Zielwert des Elements, das in den Blättern dargestellt wird, zu gelangen. Decision Tree Learning ist eines der prädiktiven Modellierungsansätze für Statistik, Machine Learning und Data Mining. Die Baummodelle, bei denen die Zielvariable einen gewissen diskreten Wertebereich annimmt, werden Klassifikationsbäume genannt. Die Blätter der Baumstrukturen stellen Klassenbeschriftungen und die Zweige Verbindungen der Merkmale dar und diese führen zu Klassenbeschriftungen. Falls Zielvariablen zu kontinuierlichen Werten (reellen Zahlen) führen, werden diese Entscheidungsbäume als Regressionsbäume bezeichnet

Was sind Random Forests?

Random Forests sind Entscheidungswälder die aus einer Vielzahl an Decision Trees bestehen. Ein Decision Tree ist ein baumartiges und gerichtetes Diagramm zur Entscheidungsfindung. Bei einem Decision Tree handelt es sich um ein mathematisches Modell und Diagramm zur Ermittlung von Entscheidungen