3 Ansätze zur besseren Datenvisualisierung von Big Data

Frau arbeitet abstrahiert mit Daten.

Die Datenexploration von Big Data birgt neue Herausforderungen. Besonders durch die Größe und Komplexität der Daten fällt es schwer, die Zusammenhänge von Big Data zu begreifen. Dabei bietet Datenvisualisierung eine gute Möglichkeit, um diese abstrakten Zusammenhänge greifbar zu machen. Vor allem bei riesigen Datenmengen, wie sie bei Big Data vorkommen, existieren allerdings bestimmte Herausforderungen.

Tools wie Qlik Sense, Tableau oder Power BI ermöglichen heute schon interaktive Datenvisualisierung, d.h. Daten werden geladen, Dimensionen und Visualisierungstyp ausgewählt und Daten analysiert. Das Ziel der Datenanalyse ist die Struktur des Datensatzes zu erforschen und Muster, Trends und Zusammenhänge zu finden. Die Exploration beginnt mit dem Filtern und Zoomen in die Daten.

Erst die Übersicht, dann die Details

Um den Data Scientist in diesem Prozess zu unterstützen, folgen viele Tools dem vom Visualisierungsexperten Ben Shneiderman aufgestellten Paradigma „Overview first, zoom in and filter, then details on demand“. Für die Tools bedeutet dieser Leitsatz, dass zunächst ein genereller Überblick über die Daten geschafft werden soll, z.B. indem der gesamte Datensatz dargestellt wird. Anschließend soll der Nutzer die Möglichkeit haben, die Daten zu erkunden, in diese zu zoomen, einzelne interessante Bereiche auszuwählen und zu filtern. Erst im letzten Schritt hat der Nutzer die Möglichkeit Details über die Daten abzurufen, wie z.B. Namen zu einzelnen Datenpunkten.

Herausforderungen bei der Datenvisualisierung

Auch für Big Data ist Shneidermans Paradigma wichtiger denn je. Gerade bei riesigen Datensätzen ist der Überblick über die Daten ebenso wichtig, wie ein detailliertes Verständnis. Datenvisualisierung von Big Data gestaltet sich jedoch als sehr schwierig. Wenn viele Daten visualisiert werden, überlappen sich Datenpunkte, sodass Strukturen, Trends und Zusammenhänge nicht mehr erkennbar sind. Anstelle von Mustern sieht man lediglich Farbteppiche. Auch die Navigation innerhalb der Daten ist besonders herausfordernd. Wenn man in die Daten hineinzoomt, ist oft ein hoher Vergrößerungsgrad erforderlich, um an Details der Daten zu kommen. Hierbei besteht die Gefahr, dass der Nutzer die Orientierung verliert. Während der Datenexploration sind daher sowohl angepasste Visualisierungstechniken, die Farbteppiche in Muster zurückverwandeln als auch Fokus und Kontext-Darstellungen, die Orientierung ermöglichen, notwendig.

3 Ansätze für gute Big Data Datenvisualisierung

Das Problem der Visualisierung großer Datenmengen ist allerdings nicht neu. In der Wissenschaft wurde zu diesem Thema bereits geforscht und es wurden Methoden und Möglichkeiten entwickelt, um Big Data zu visualisieren und durch Big Data zu navigieren. Überblickend lassen sie sich in drei Kategorien zusammenfassen: Datenreduktion, aggregierte Visualisierungstechniken und fortgeschrittene Interaktionsmöglichkeiten.

Ansatz 1: Datenreduktion

Datenreduktion beinhaltet die Reduzierung der Datenmenge und der Dimensionen bzw. Attribute. Denkt man an eine Datentabelle, bezeichnet ersteres die Reduzierung der Zeilen und letzteres die der Spalten. Methoden der Datenreduktion beinhalten Sampling-Methoden mit deren Hilfe Teilmengen der Daten und Filter gebildet werden. Dimensionsreduktion erfolgt mithilfe spezieller Verfahren, wie z.B. der Hauptkomponentenanalyse, wodurch besonders aussagekräftige Dimensionen berechnet werden. Sowohl mit Datenreduktion wie auch mit Dimensionsreduktion wird der Datensatz verkleinert, sodass in der Visualisierung wieder Zusammenhänge erkennbar werden. Allerdings birgt die Datenreduktion auch die Gefahr des Informationsverlustes.

Ansatz 2: Aggregierte Visualisierungstechniken

Aggregierte Visualisierungen fassen Datenpunkte in der Darstellung zusammen. Ein aggregierter Scatter Plot stellt z.B. Punktecluster anstelle jedes einzelnen Punktes dar. Die Punktdichte wird dabei über den Farbton abgebildet. Beispielhaft hierfür ist die Smart Data Compression von Qlik Sense. Außerdem können aggregierte Visualisierungen multiple Auflösungen beinhalten. Relevante Daten (z.B. aktuelle Daten) können hochaufgelöst im Zentrum dargestellt werden, wohingegen weniger relevante Daten (z.B. die Daten von vor fünf Jahren) aggregiert am Rande abgebildet werden. Auf diese Weise kann Überlappung vermieden und der Fokus auf relevante Daten verlagert werden. Mithilfe von Datenreduktion und Aggregation wird die visuelle Überlappung reduziert und große Datenmengen somit wieder darstellbar.

Ansatz 3: Fortgeschrittene Interaktionsmöglichkeiten

Fokus und Kontext können durch Interaktionen verbessert werden. Neben Zoom und Filter bieten Lupentechniken die Möglichkeit einzelne Daten genauer zu betrachten und dennoch den Überblick zu behalten. Lupentechniken sind Verzerrungstechniken, zu denen auch bifokale Displays und perspektivische Wände zählen. Beispiele findet man hier.
Alle Verzerrungstechniken rücken einen ausgewählten Datenausschnitt in den Fokus, während der restliche Datensatz verkleinert angezeigt wird.

Big Data Datenvisualisierung in bestehenden Visualisierungstools

Qlik Sense, Tableau oder Microsoft Power BI setzen diese Techniken teilweise schon um. Zoomen und Filtern ist in diesen Tools mittlerweile Standard geworden, aber auch im Bereich der Datenreduktion werden einige Möglichkeiten angeboten. Dazu gehören aggregierte Dimensionen und die Einbindung von R-Skripts. Aggregierte Visualisierungen werden jedoch lediglich über Erweiterungen, sogenannte Extensions, ermöglicht. Für diese Extensions wird auf populäre Programmiersprachen, wie JavaScript und R zurückgegriffen. In Qlik Sense können mithilfe von JavaScript maßgeschneiderte Visualisierungen erstellt werden, wohingegen Tableau erweiterte Möglichkeiten der Datenreduktion mit R Skripten bietet. Power BI ermöglicht sowohl die Einbindung von JavaScript, als auch von R Skripten.

Auch wenn es noch kein Tool gibt, das alle vorgestellten Methoden zur Datenvisualisierung von Big Data integriert, ist es dennoch möglich, diese Methoden mit den notwendigen Programmierkenntnissen zu implementieren. Datenvisualisierung von Big Data ist immer noch ein in der Entwicklung steckendes Feld, in dem noch viel Potenzial steckt – allerdings gibt es erste Fortschritte, die auch in Visualisierungstools sichtbar werden.

Möchten sie mehr über Datenvisualisierung erfahren?
Schicken Sie uns gerne eine Nachricht.

Kontakt
 

Tags

top