Was ist Bootstrapping?

Beim Bootstrapping-Verfahren handelt es sich um eine Methode in der Statistik zur Schätzung von Verteilungsfunktionen, bei welcher das Verfahren des sogenannten Resampling angewandt wird. Resampling beschreibt eine Vorgehensweise der wiederholten Ziehung von Unterstichproben aus einer Ausgangsstichprobe, um so Rückschlüsse auf Größen der ursprünglichen Verteilungsfunktion wie Mittelwert oder Standardabweichung zu erhalten.

Bootstrapping findet dort Anwendung, wo die Verteilungsfunktion einer Statistik nicht bekannt ist und dahingehend geschätzt werden muss. Voraussetzung für die Wirkungsweise ist eine gewisse Größe der Ausgangsstichprobe.

Der Name Bootstrapping leitet sich aus dem englischen Wort für Stiefelschlaufe ab und hat in der Geschichte vom Baron von Münchhausen seinen Ursprung. Da Baron von Münchhausen sich der Geschichte nach an seinen eigenen Stiefeln aus dem Sumpf zog, wird diese Metapher auch für die Methode aufgegriffen, indem beim Bootstrap-Verfahren die Unterstichprobe aus der eigenen Stichprobe gezogen wird.

Was sind statistische Verfahren im Bootstrapping?

Da Bootstrapping lediglich eine allgemeine Vorgehensweise in der Statistik beschreibt, entwickelten sich für unterschiedliche Anwendungsgebiete auch verschiedene konkrete Bootstrapping-Verfahren. Beim i.i.d Bootstrap (independent and identically distributed; engl. für unabhängig und identisch verteilt) wird beispielsweise derart vorgegangen, dass wiederholt eine bestimmte Unterstichprobengröße aus der Ausgangsstichprobe mit Zurücklegen gezogen wird. Nach dem Ziehen der definierten Anzahl an Stichprobenwiederholungen kann die approximierte Verteilung zur Erzeugung eines Konfidenzintervalls verwendet werden.

Da das i.i.d Bootstrap keine zeitliche Korrelation der Daten darstellen kann, wird für solche Fälle Block-Bootstrap angewendet. Bei dieser Methode werden in einem vorbereitenden Schritt die Daten in zusammenhängende Blöcke unterteilt. Durch Aufteilung der Trendzeitreihenfunktion in einen Trend- und Residualanteil wird die Grundlage zur Durchführung des Verfahrens geschaffen. Der Residualanteil entspricht dabei der Differenz zwischen dem jeweiligen Mess- und Schätzpunkt. Mittels Ziehen und Zurücklegen werden wiederholt Residualblöcke gezogen, bis die Länge des ursprünglichen Signals bzw. der Ausgangsstichprobe erreicht wird und anschließend mit der Trendzeitreihe addiert. Durch wiederholte Anwendung dieser Stichprobenwiederholung kann schlussendlich mit diesem Verfahren eine zeitliche Korrelationsfunktion mittels Bootstrap dargestellt werden.

Im Gegensatz zu den bisher beschriebenen Verfahren des nichtparametrischen Bootstrapping wird beim parametrischen Bootstrapping eine bestimmte Verteilung der Ausgangsstichprobe angenommen. Nichtparametrisches Bootstrapping macht sich die Tatsache der nichtparametrischen Statistik zunutze, dass für ihre Anwendung keine Annahmen über die Verteilung trifft, da diese erst aus der betrachteten Stichprobe hervorgeht. Beim parametrischen Bootstrapping konzentriert man sich auf die Schätzung der Parameter der angenommenen Verteilung.

Wo wird das Verfahren beim maschinellen Lernen genutzt?

Im Bereich des maschinellen Lernens wird das Verfahren im Rahmen des sogenannten Bagging (kurz für „Bootstrap Aggregating“) genutzt. Bagging findet insbesondere bei Regressions– und Klassifikationsbäumen Anwendung und soll der Varianzreduktion und somit der Verbesserung von Vorhersagewerten dienen. Durch Bootstrapping werden beim Bagging Stichproben gezogen (Bootstrap), welche mit dem Vorhersagemodell trainiert und schlussendlich zu einem Vorhersagewert aggregiert (Aggregating) werden. Auch im Bereich des Temporal Difference Learning im Umfeld des bestärkenden Lernens wird das Verfahren verwendet, indem die Zielfunktion durch Varianzreduktion iterativ optimiert wird.

Die Programmiersprache R bietet für nichtparametrisches Bootstrapping eine Implementierung an. Durch Angabe der Parameter können einzelne Größen oder Vektoren berechnet werden. In einem nächsten Schritt lassen sich auch die dazugehörigen Konfidenzintervalle ermitteln.

Auch Statistiksoftware wie SPPS von IBM oder Stata bieten weitgehend automatisierte Anwendungsverfahren von Bootstrapping. SPSS stellt dahingehend sogar ein eigenes Modul mit vielen Funktionalitäten zur Verfügung. Nach Eingabe der einzelnen Parameter wird die Stichprobenverteilung mittels der beschriebenen Methode geschätzt.