Was ist Feature Selection?

Feature Selection wird für maschinelles Lernen benötigt. Damit wird der Prozess bezeichnet mit dem eine Untermenge an relevanten Merkmalen (Variablen oder Prädiktoren) für die Nutzung in der Modellkonstruktion ausgewählt wird. Deren Techniken werden aus verschiedenen Gründen verwendet:

  • Zur Vereinfachung von Modellen, die einfacher durch die Forscher/Anwender zu interpretieren sind
  • Kürzere Trainingszeiten
  • Um Nachteile von Dimensionalität zu vermeiden
  • Verbesserung von Datenkompatibilität mit einer Lernmodellklasse
  • Kodierung von inhärenten Symmetrien, die sich im Eingaberaum befinden

Feature Selection“ wird auch als „Variable Selection“, als „Attribute Selection“ oder als „Variable Subset Selection“ bezeichnet.

Es kann sein, dass Daten redundant vorliegen oder irrelevant sind. Mit Feature Selection können Daten außer Acht gelassen werden, die nicht benötigt werden. Zudem sollte es eine Unterscheidung zu Feature Extraction geben. Feature Extraction erzeugt neue Features von Funktionen der Original-Features. Dahingegen wird durch Feature Selection eine Untermenge an Features zurückgegeben. Feature Selection Techniken werden oft dann verwendet, wenn es verhältnismäßig viele Features gibt und vergleichsweise wenig Beispiele oder Daten. Als Beispiele für Anwendungen von Feature Selection gibt es die Analyse von geschriebenen Texten und DNA Microarray Daten, wo es tausende von Features gibt und wenige hundert Muster.

Man kann einen Feature Selection Algorithmus als eine Kombination aus Suchtechnologien für neue Feature-Subsets ansehen, während es eine Evaluationsmessung gibt, die Punkte vergibt für unterschiedliche Feature-Mengen. So gibt es als einfachsten Algorithmus den Test der eine minimierte Fehlerrate findet. Die Wahl der Evaluations-Metrik beeinflusst ganz stark den Algorithmus und es gibt diese Evaluations-Metrik mit der drei verschiedene Auswahlalgorithmen unterschieden werden: Wrapper, Filter und eingebettete Methoden.

Welches Problem löst Feature Selection?

Mit Feature Selection Methoden kann man genaue Vorhersagungsmodelle erzeugen. Sie helfen dabei Features auszusuchen, die einem gute oder bessere Genauigkeit geben während sie weniger Daten benötigen. So können die entsprechenden Feature Selection Methoden dazu verwendet werden nicht benötigte, irrelevante und redundante Attribute von Daten zu identifizieren und zu entfernen. Dadurch wird nicht die Genauigkeit eines Vorhersagungsmodelles verringert. Die Komplexität eines Modells wird dadurch reduziert und es ist einfacher verständlich.

Die Vorteile

Es kann Speicherplatz eingespart werden und die Berechnung beschleunigt werden.

Was muss berücksichtigt werden?

Es ist wichtig, dass ein besseres Verständnis davon gebildet wird, welche Daten genutzt werden und bei welchen Features es so ist, dass diese nicht weiter verwendet werden. Es muss studiert werden, welche Information für die Zukunft gebraucht wird. Irrelevante Informationen, die keine Auswirkungen haben, sollen entfernt werden. Durch die Vereinfachung des Modells soll dieses einfacher zu verstehen sein.