Logit

Was ist eine Logit-Funktion?

Die Logit-Funktion (auch Logit, Logit-Modell oder logistische Regression genannt) gehört zu den Regressionsanalysen. Eine Regression gibt den Zusammenhang zwischen zwei oder mehr Variablen an. Ein Logit ermöglicht es, eine abhängige binäre Variable zu erklären und darüber hinaus eine Vorhersage über die Eintrittswahrscheinlichkeit eines Ereignisses zu geben.

Die Herangehensweise der logistischen Regression entspricht weitgehend der linearen Regression. Der Hauptunterschied liegt bei der abhängigen Variable. Bei der linearen Regression ist sie metrisch (zum Beispiel Geldbeträge) und bei der logistischen Regression binär (es gibt genau zwei Ausprägungen, zum Beispiel männlich und weiblich, kodiert als 0 und 1).

Die Logit-Funktion lautet:

logit(p):= In (p / p-1)

Wobei „p“ die Wahrscheinlichkeit und „p-1“ die Gegenwahrscheinlichkeit ist.

Anwendungen von Logit-Funktionen

  • Prognose der Kaufentscheidung: Kauft eine Person ein bestimmtes Produkt?
  • Markenbekanntheit: Kennt eine Person eine bestimmte Marke?
  • Kreditwürdigkeit: Kann eine Person eine bestimmte Kreditsumme zurückzahlen?
  • Parteipräferenz: Wenn am Sonntag Bundestagswahl wäre, würde eine Person eine bestimmte Partei wählen?
  • Einschaltquoten: Hat eine Person eine bestimmte Sendung gesehen?

Was sind Voraussetzungen für den Einsatz dieser Funktion?

  1. Die abhängige Variable ist binär, mit anderen Worten als 0 und 1 kodiert.
  2. Das Modell sollte keine oder wenig Multikollinearität (zwei oder mehr erklärende Variablen haben eine sehr starke Korrelation zueinander) zeigen und möglichst simpel sein.
  3. Es besteht eine lineare Beziehung zwischen den unabhängigen Variablen und den „log odds“ (die Chancen für das Auftreten der zu betrachtenden Merkmalsausprägung der abhängigen Variable).
  4. Es wird ein recht großer Stichprobenumfang benötigt.

Was sind Alternativen zur Logit-Funktion?

Die logistische Regression wird beim maschinellen Lernen als Klassifizierungsalgorithmus genutzt, um die Wahrscheinlichkeit einer abhängigen Variablen vorherzusagen. Sie ist unkompliziert, funktioniert aber bei hochkomplexen Modellen nicht einwandfrei.

In solchen Fällen sollten andere Klassifizierungsmöglichkeiten genutzt werden, zum Beispiel:

Data Navigator Newsletter