Visual Data Exploration in Data-Science-Projekten

von | 24. Juli 2018 | Grundlagen

Die Projekte im Bereich Data Science werden immer spezifischer, die zu analysierende Datenmenge größer und die Tools beziehungsweise Toolkits für die Datenverarbeitung und Datenvisualisierung diversifizierter. Die Technologieentwicklung und der entstehende Bedarf in den Projekten stellen eine wachsende Herausforderung beim Umgang mit Daten für Data Scientists dar. Die Anwendbarkeit der Methoden, Algorithmen und Tools erfordert eine schnelle und effektive Durchführung der einzelnen Schritte zur Datenexploration. Ein Lösungsansatz dabei ist: Visual Data Exploration

Charakteristika der Visual Data Exploration

Der Data Exploration Prozess verfolgt das Ziel, die implizierten, wertvollen Informationen in Daten zu suchen und zu analysieren. Beim Visual Data Exploration Prozess spielt unsere visuelle Wahrnehmungsfähigkeit eine herausragende Rolle. Da die visuelle Wahrnehmungsgeschwindigkeit des Menschen 10-mal schneller ist als die über andere Wahrnehmungskanäle, macht sie ihn zu einem begabten und agilen Informationsempfänger. Das Konzept von Visual Data Exploration zielt darum darauf ab, den Menschen in den Data Exploration Prozess zu integrieren und seine Wahrnehmungsfähigkeiten bei der Analyse von großen Datenmengen zu nutzen.

Die Grundidee der Visual Data Exploration besteht darin, die Daten in einer visuellen Form darzustellen. So erhält der Data Scientist schnell einen Einblick in die Daten und kann sehr schnell Schlussfolgerungen ziehen, weil er direkt mit den Daten interagiert. In diesem Kontext verschmelzen die Grenzen zwischen Visual Data Exploration und Visual Analytics. Der Visual-Analytics-Prozess umfasst dabei die Interaktion des Nutzers mit den Daten, Visualisierungen und Modellen, um so das darin verborgene Wissen zu entdecken.

Der Visual Data Exploration Ansatz

Die klassische Vorgehensweise bei der Visual Data Exploration orientiert sich am bekannten, dreistufigen Paradigma von Shneidermann:

  1. Übersicht
  2. Zoom und Filter
  3. Details-on-Demand

Dieses dreiteilige Schema ist auch als „Information Seeking Mantra“ bekannt. Im ersten Schritt verschafft man sich einen Überblick über die Daten. Dann fokussiert sich der Data Scientist auf Auffälligkeiten und interessante Muster in den Daten, um abschließend die Muster in den Daten genauer analysieren zu können, werden die Daten detaillierter untersucht.

Gleichzeitig hat der Data Scientist den Visual Data Exploration Prozess im Fokus, um die automatisierten Analysemethoden mit den interaktiven visuelle Darstellungen zu verbinden. Daher kann das Informations Seeking Mantra folgendermaßen erweitert beziehungsweise vervollständigt werden:

„Analyze first – show the important – zoom, filter and analyze further – details on demand“.

Besonderes bei größeren Datenmengen – oft spricht man in diesem Fall von Big Data – wird die Problematik verschärft. Die Herausforderung, einen Überblick über die zu visualisierenden Daten zu bekommen, ohne Interessantes zu verlieren, wächst. Daher ist es notwendig die Fragestellung festzulegen und die Daten nach ihrem Wert von Interesse zu analysieren, um die wichtigsten Aspekte der Daten zu zeigen. Gleichzeitig sollten dem Data Scientist weitere Analysen ermöglicht werden, in dem er schnell auf die weiteren benötigten Daten zugreifen kann.

Die Rolle der Tools im Visual Data Exploration Prozess

Ebenso wichtig sind im Kontext der Visual Data Exploration die eingesetzten Visualisierungstools. Diese helfen dem Data Scientist bei der Platzierung der Daten in geeigneter Darstellung sie besser zu verstehen. Durch die oben genannten Funktionalitäten der Software wie beispielsweise durch „Filtering“, „Zooming“ oder „Drill down“ lassen sich die Daten schneller analysieren.

Bei der Visual Data Exploration taucht man tief in die Daten ein. Nahtlos gelangt man von interessanten Insights zu deren näheren Untersuchung oder zur Entfernung von Daten, die irrelevant sind. Man filtert die Daten, um sie aus verschiedenen Perspektiven zu sehen und kommt so zu neuen Erkenntnissen.

Der Zustand der Beherrschung, die bei diesem Prozess erlebt wird, kann man als „Analytical Flow“ (analytischen Fluss) bezeichnen. Der Begriff „flow“ wurde von Psychologe und Glücksforscher Mihaly Csikszentmihalyi geprägt und beschreibt den Zustand völliger Vertiefung und restlosen Aufgehens in einer Tätigkeit. Eine gut gestaltete visuelle Analysesoftware soll darum im Idealfall einfach in der Verwendung sein, keine Aufmerksamkeitsfragmentierung hervorrufen und nicht vom vollständigen Dateneintauchen abhalten.

Herausforderungen bei der Visual Data Exploration

Da die Erfahrung des Analytical Flow hauptsächlich auf der verwendeten Software basiert, besteht die große Herausforderung bei der Toolauswahl in deren Usability. Auch der Einsatz einer Palette von verschiedenen explorativen Tools, die nicht kompatibel miteinander sind, kann ein Hindernis im Explorationsprozess darstellen. Die Datenmenge spielt in diesem Fall ebenfalls eine erhebliche Rolle.

Größere Datenmengen (Big Data) brauchen eine besondere Behandlung. Die Schwierigkeiten treten bereits bei der Navigation durch Big Data auf. Zusätzlich benötigt man für die Visualisierung von Big Data entsprechend angepasste Visualisierungstechniken, um die Orientierung in den Daten zu ermöglichen. Darüber hinaus ist die Komplexität der Daten sehr herausfordernd. Während die Daten in der Visualisierung verpackt werden, kann die Komplexität zu Unübersichtlichkeit führen und damit die visuelle Wahrnehmung verzerren.

Tools für die Visual Data Exploration

Zusammengefasst werden diese Probleme heutzutage, insbesondere als Herausforderungen mit Big Data aggregiert. Die Visual Data Exploration ist in dem Fall wertvoll, da sie den Einblick in die Daten und die Ableitung von Wissen erheblich erleichtert.

Die Tools sind dabei die Enabler der beschriebenen Methoden und ermöglichen oft Visual Data Exploration über kompatible Software. Business-Intelligence-Tools wie Qlikview, Tableau oder andere ermöglichen den Analytical Flow. Sie zeichnen sich durch hohe Usability aus, obwohl sie gewisse Schwächen beim Umgang mit Big Data aufweisen.

Im Gegensatz dazu können Open-Source-Tools wie zum Beispiel Kibana oder Datameer sehr gut mit der größeren Datenmenge umgehen. Allerdings sind diese Tools nicht besonders benutzerfreundlich und bieten keinen Analytical Flow für den Data Scientist.

Im Moment gibt es noch keine optimale Standardlösung. Anders gesagt, handelt es sich also um ein überaus spannendes Feld, das auf weitere Entwicklungen in der Zukunft hoffen lässt.

Autor:innen

[at] REDAKTION

Unsere AT Redaktion besteht aus verschiedenen Mitarbeitern, die mit größter Sorgfalt und nach Bestem Wissen und Gewissen die entsprechenden Blogartikel ausarbeiten. Unsere Experten aus dem jeweiligen Fachgebiet versorgen Sie regelmäßig mit aktuellen Beiträgen aus dem Data Science und AI Bereich. Wir wünschen viel Freude beim Lesen.

0 Kommentare

Einen Kommentar abschicken

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert