Computational Statistics

Was sind Computational Statistics?

Das Feld Computational Statistics ist der Kontaktpunkt zwischen Informationstechnik und Statistik. Hinter dem Begriff steht ein wesentlicher Bereich der Data Science, der aktuell und sicherlich auch in Zukunft große Aufmerksamkeit in unterschiedlichsten Anwendungsfeldern genießt, sei es für den Google PageRank, Spamfilter im E-Mail-Postfach oder im Rahmen von Big-Data-Analysen.

Untergeordnet wird Computational Statistics neben der Datenwissenschaft auch der Simulationswissenschaft; hierbei geht es generell um das Nachstellen von Experimenten, um den Arbeitsaufwand beim Forschen zu minimieren oder Versuche überhaupt erst möglich zu machen.

Computational Statistics wird oft gleichgesetzt mit Statistical Computing. Tatsächlich geht es bei ersterem jedoch hauptsächlich um die Implementierung von Algorithmen in Anwendungen; beim Statistical Computing ist es umgekehrt und Konzepte der Informatik werden auf die Statistik angewandt.

Wichtige Methoden:

  • Die Markow-Kette ist ein stochastischer Prozess, der Anwendung in unterschiedlichsten Bereichen findet: Wirtschaftswissenschaftlern hilft sie dabei, Verkehrssysteme zu optimieren, in der Finanzmathematik werden damit Aktienkurse modelliert und Onlinemarketer erstellen damit Texte; auch das beliebte Brettspiel Monopoly ist als Markow-Kette zu verstehen. Vereinfacht ausgedrückt wird in diesem mathematischen Verfahren nämlich die zeitliche Entwicklung von zufallsabhängigen Systemen betrachtet. Eine Aneinanderreihung von Würfelwürfen also, deren jeweiliges Würfelergebnis natürlich unabhängig vom Würfelwurf davor ist. Am Beispiel Monopoly könnte mit diesem Prozess nun ermittelt werden, wie wahrscheinlich bestimmte Spielszenarien sind.
  • Die Monte-Carlo-Simulation ermöglicht es, statistische Studien durchzuführen, die auf anderen Wegen nicht umsetzbar oder sehr aufwendig wären. Soll etwa die Durchschnittsgröße eines Menschen ermittelt werden, so könnte man alle Erdenbürger messen und die Summe durch die Weltpopulation teilen – das ist ein unmögliches Unterfangen. In der Monte-Carlo-Simulation wird eine kleinere Anzahl von Menschen zufällig ausgewählt, was den Arbeitsaufwand gering hält. Je mehr Messungen durchgeführt werden, desto mehr nähert man sich dem realen Ergebnis an – der Grund dafür ist das Gesetz der großen Zahlen. Auch die Monte-Carlo-Simulation wird in vielen Bereichen eingesetzt: Klimamodelle sagen bspw. das Wetter voraus, Firmen wägen damit Risiken ab und Produktionsprozesse in Fertigungsstätten werden mithilfe dieses Verfahrens optimiert.
  • Die Maximum-Likelihood-Methode ist ein universell einsetzbares Schätzverfahren – in der Bioinformatik gilt es als Standardverfahren. Wie auch die Monte-Carlo-Simulation wird die Maximum-Likelihood-Methode eingesetzt, um den Aufwand möglichst gering zu halten. Das bedeutet: Möchte man für eine Statistik verschiedene Parameter ausprobieren, für die es jedoch keine Messungen gibt, so wird mit der Maximum-Likelihood-Methode der Parameter bestimmt, der am wahrscheinlichsten zum erwünschten Ergebnis führt.

Welche Rolle spielen Computational Statistics in der Entwicklung neuer Technologien?

Die computergestützte Statistik setzt sich aus verschiedenen Bestandteilen zusammen. Auf Basis der mathematischen Grundlagen Wahrscheinlichkeit, Verteilung, Schätzung und Folgerung werden Methoden (wie u.a. die Markow-Kette) eingesetzt, um Daten aufzubereiten. Wer sich innerhalb dieses Gebiets bewegt, beherrscht die Vorgehensweisen der Statistik und deren digitale Umsetzung.

In Zukunft wird die Arbeit mit Computational Statistics mehr denn je eine Rolle spielen. Gerade Bereiche der Digitalisierung werden meistens durch computergestützte Statistik ergänzt. Auf dem Gebiet des autonomen Fahrens besteht bspw. dringender Bedarf an Statistiken; da es im öffentlichen Straßenverkehr vorrangig um die Sicherheit geht, wird die computergestützte Statistik essenziell benötigt. Die Nanotechnologie sowie der medizinische Sektor im Allgemeinen werden weiterhin auf Verfahren wie die Maximum-Likelihood-Methode setzen, um an DNA-Fäden zu forschen.

Die Felder der Technologisierung erfordern die Analyse durch computergestützte Statistik, sei es die virtuelle Realität, Blockchain oder die künstliche Intelligenz.

Ein Beispiel für die computergestützte Statistik in der Entwicklung neuer Technologien ist eine Onlineplattform für Mietwohnungen. Seit der Firmengründung bestand das Problem der unzähligen Variablen, die den Vermietern die Preisgestaltung erschweren. Daher setzten sie von Anfang an auf Data Science, um für ihre Kunden Preisvorschläge zu errechnen. Diese Vorschläge vermindern den Arbeitsaufwand für den Vermieter und machen es damit niedrigschwelliger, ein Inserat für die leerstehende Wohnung aufzugeben. Dadurch steigende Umsätze werden wiederum statistisch aufgearbeitet. Die computergestützte Statistik ist mit der Entwicklung neuer Technologien eng verwoben; das erkennt man an diesem Beispiel.

Data Navigator Newsletter