Alles über Daten. Grundlagen, Formen und der Wert der Daten

Veröffentlicht: 05.02.2019
Kategorie: Grundlagen

Inhaltsverzeichnis

Daten spielen heute überall und jeden Tag eine entscheidende Rolle – im täglichen Leben jedes Einzelnen, im sozialen und gesellschaftlichen Zusammenhang, in einzelnen Unternehmen und der Wirtschaft als Ganzem. Dennoch fragen wir uns selten, was genau Daten eigentlich sind und was ihr Wert ist. Dieser Artikel stellt sich darum die einfache Frage: Was sind Daten? So simpel die Frage auf den ersten Blick erscheint, so vielfältig und vielschichtig fallen die Antworten darauf aus.

Was Daten für jeden persönlich bedeuten, lässt sich an einem einfachen Gedankenexperiment nachvollziehen. Dazu stelle man sich vor, man nimmt an einem Spiel teil, bei dem nicht um Geld gespielt wird, sondern um persönliche Informationen. Verliert man, muss man die eingesetzten Daten preisgeben. Den Browser-Verlauf, Chat-Verläufe, Bankdaten oder private Bilder – was wäre man wirklich bereit in einem Spiel einzusetzen? Welchen Gegenwert müsste man bei einem Spiel gewinnen können, damit es sich lohnt, diese Daten als Einsatz zu verwenden?

Definition: Was sind Daten?

Daten sind die (digitale) Repräsentation von realen Phänomenen. Vor dem digitalen Zeitalter sprach man von Daten immer dann, wenn es um zahlenmäßige Informationen oder Werte ging, die durch Messungen gewonnen wurden. In der Informatik sind Daten codierte Informationen. Die digitaleGrundform von Daten ist ein binärer Code, sprich: eine mehr oder weniger umfangreiche Ansammlung der Zahlen 0 und 1. Da Daten codiert sind, gibt es bestimmte Standards, nach denen sie decodiert werden. Solche Standards sind beispielsweise Dateiformate wie JPEG oder PDF.

Ähnlich wie in der Chemie die Elemente in drei Aggregatzuständen auftreten können, können Daten in drei Erscheinungsformen vorliegen. Während sich die Elemente nach dem Grad ihrer Energiedichte unterschiedliche Zustände annehmen können, gliedern sich Daten nach dem Grad ihrer Strukturiertheit in:

Strukturierte Daten
Semi-strukturierte Daten
Unstrukturierte Daten

Daten lassen sich anhand ihrer Strukturiertheit voneinander abgrenzen

Im Folgenden stellen wir die unterschiedliche Strukturiertheit von Daten dar.

Strukturierte Daten

Strukturierte Daten sind Daten, die in einem vorgegebenen, eindeutigen Format vorliegen. In einer relationalen Datenbank haben sie klare Bezeichnungen – daher können strukturierte Daten sehr leicht und sehr schnell gefunden und bearbeitet werden.

Daten bekommen dadurch eine Struktur, dass sie beispielsweise in Tabellenform ausgegeben werden. Überall da, wo Daten maschinell verarbeitet werden, bringen strukturierte Daten große Vorteile. Inhalte wie Messwerte werden durch die Strukturierung, beispielsweise mit zusätzlichen Informationen in einer Tabelle, leichtidentifizierbar und lassen sich so schnellverarbeiten. Auch Suchmaschinen machen von diesem Vorteil Gebrauch.

Semi-strukturierte Daten

Semi-strukturierte Daten sind Daten, die eine „versteckte“ Struktur mit sich führen – darum spricht man von einer impliziten, irregulären oder partiellen Struktur. Wenn man unterschiedliche Objekte in einem Softwareprogramm zusammenfügt, ergeben sich zum Beispiel semistrukturierte Datensätze. Sie nehmen eine Zwischenposition zwischen strukturierten und unstrukturierten Daten ein, weil sie zwar einen gewissen Grad an Strukturierung aufweisen, ihr Inhalt jedoch weitestgehend unbekannt ist. Ein Beispiel für semistrukturierte Daten sind XML-Daten.

Unstrukturierte Daten

Unstrukturierte Daten sind Daten, die keine formale Struktur haben. Sie lassen sich darum nicht wie strukturierte Daten einfach in einer relationalen Datenbank – wie einer SQL-Datenbank – speichern. Darum müssen unstrukturierte Daten vor ihrer Auswertung zunächst aufbereitet oder strukturiert werden. Der genaue Inhalt von unstrukturierten Daten ist vor einer Datenanalyse nicht bekannt.

Unstrukturierte Daten machen einen großen Teil von allen anfallenden Daten in Unternehmen aus. Beispiele für unstrukturierte Daten sind Textdaten, die in E-Mails, Kundenbewertungen, Forenbeiträge etc. vorliegen, aber auch Bild– und Videodaten, die im Rahmen der Fertigung zur Sicherstellung der Produktionsqualität entstehen können.

Der Data Lake und das Data Warehouse

Eng mit dem Aspekt der Organisation und den unterschiedlichen Formaten von Daten verbunden ist die Frage, wo Daten ganz konkret aufbewahrt werden. Dabei bieten sich unterschiedliche Konzepte und Technologien an. Die beiden prominentesten Vertreter sind das Data Warehouse und der Data Lake. Beide stehen zudem für sehr unterschiedliche Ansätze in der Datenlandschaft. Unternehmen, die viel mit Datenanalysen arbeiten, sollte stets bemüht sein, Daten-Silos zu vermeiden. Ein Data Lake kann dabei helfen, dieses Ziel zu realisieren.

Data Warehouse und Data Lake im Vergleich.

Im Vergleich zu einem Data Warehouse und relationalen Datenbanken, bei denen Daten vor ihrer Speicherung aufbereitet werden, fließen in einen Data Lake alle in einem Unternehmen anfallenden Daten in ihrer Rohform ein. Ein Data Lake ist entsprechend eine ideale Aufbewahrungsform für unstrukturierte Daten.

Ein Datenkatalog schafft Ordnung

In einem Unternehmen und in Organisationen entstehen Daten in unterschiedlichsten Kontexten und Formaten. In der Vergangenheit geschah dies in der Regel ohne ein Bewusstsein dafür, welcher Wert in ihnen steckt und wie sie in Zukunft noch verwendet werden können. Umso wichtiger ist es, Data Skills ins eigene Unternehmen zu bringen und einen systematischen Umgang mit Daten zu entwickeln (Data Governance). Ein Lösungsansatz in diesem Zusammenhang ist ein Datenkatalog. Daten müssen einheitlich und systematisch dokumentiert werden. Das erleichtert ihre Auffindbarkeit erheblich.

Ein Datenkatalog, manchmal auch als auch als Datenverzeichnis bzw. „Data Dictionary“ bezeichnet, ist ein zentrales Informationsregister für das ganze Spektrum an Daten. Dieses Verzeichnis versammelt alle wichtigen Informationen zu den vorhandenen Daten und Datenquellen. In anderen Worten ist ein Datenkatalog eines der wichtigsten Tools, um Daten zu verwalten, zu überprüfen und für die weitere Verarbeitung aufzufinden. Ein Datenkatalog stellt sicher, dass alle Mitarbeiter über die Existenz, physische Lokation, Zugriffsrechte und Verwertungshistorie sowie Qualität der Daten und Inhalt aller Datenquellen informiert sind.

Linktipp: Wir beraten und unterstützen Unternehmen und ihre Mitarbeiter bei der Erstellung eines Datenkatalogs und führen Schulungen zur Administration und Nutzung durch.

Welchen Wert haben Daten?

Eine spannende Frage in diesem Zusammenhang lautet: Welchen Wert haben Daten überhaupt? Eine eindeutige, allgemeingültige Antwort darauf gibt es bislang noch nicht. Auch wenn immer wieder davon die Rede ist, dass Daten das neue Öl sind, gibt es bislang noch keinen Preis, der etwa einem Rohölpreis entsprechen würde. Dies ist vor allem in einer Hinsicht problematisch: Daten sind heute ein wichtiges Asset von Unternehmen. Solange Daten aber kein Preis haben oder nicht eindeutig feststeht, was sie wirklich wert sind, ist es schwer zu bemessen, wie viel finanzieller Aufwand gerechtfertigt ist, um Daten in einem Unternehmen zu sichern, zu verwalten und auszuwerten.

Ein Anhaltspunkt, um Daten mit einem Wert zu beziffern, bieten die Preise, die im sogenannten „Dark Web“ für Daten bezahlt werden. Einer Recherche von Intel und McAfee zufolge sind beispielsweise Online-Banking-Daten im Schnitt 190 Dollar gehandelt. Wobei der Preis abhängig vom Kontostand berechnet wird. Ein Datensatz, der auf das Einkaufsverhalten von Kunden aufschlüsselt, ist schon für deutlich weniger zu haben und liegt zwischen 3 und 20 Dollar. Diese einfachen Beispiele zeigen, dass der Wert von Daten in enger Relation zum zu erwartenden Gewinn gestellt wird, der aus ihrer Nutzung generiert werden kann.

Wie kann aus Daten Mehrwert entstehen?

Der Aufwand, der betrieben wird, um Daten zu erheben, zu speichern und auszuwerten, muss also entsprechend gerechtfertigt sein. Damit Daten zu einem wertschöpfendenBestandteil eines Unternehmens werden können, sind mehrere Aspekte zu beachten:

Die Verfügbarkeit der Daten muss gewährleistet sein
Die Qualität der Daten muss gut sein (Datenqualität)
Die Verantwortlichkeiten im Unternehmen müssen geregelt sein (Data Roles)
Die Daten müssen rechtskonform sein (DSGVO)
Daten-Know-how muss vorhanden sein

Wenn diese Voraussetzungen für Data-Science-Projekte vorhanden sind, ist es unserer Erfahrung nach wichtig, in ersten Use Cases Erfahrung zu sammeln. Damit aus einem Unternehmen langfristig eine data-driven Company wird, ist es jedoch wichtig, nicht nur einen Use Case nach dem anderen durchzuführen, sondern diese in eine umfassende Datenstrategie einzubetten sein.

Diesen Beitrag teilen:

Anbieter:	HubSpot, Inc., 25 First Street, Cambridge, MA 02141, USA
Cookiename:	__hstc; hubspotutk; __hssc; __hssrc; __cf_bm; __cfruid
Laufzeit:	6 Monate; 6 Monate; 30 Minuten; Sitzungsende; 30 Minuten; Sitzungsende
Datenschutzlink:	https://legal.hubspot.com/de/privacy-policy
Host:	.hubspot.com

Anbieter:	InnoCraft Ltd., 150 Willis St, 6011 Wellington, New Zealand
Cookiename:	_pk_id..; _pk_ses..
Laufzeit:	13 Monate; 30 Minuten
Datenschutzlink:	https://matomo.org/gdpr-analytics/
Host:	.matomo.cloud

Anbieter:	Google Ireland Limited, Gordon House, Barrow Street, Dublin 4, Ireland
Cookiename:	YSC; VISITOR_INFO1_LIVE; PREF
Laufzeit:	Sitzungsende; 6 Monate; 8 Monate
Datenschutzlink:	https://policies.google.com/privacy?hl=de
Host:	.youtube.com

Anbieter:	Podigee GmbH, Revaler Straße 28, 10245 Berlin, Deutschland
Cookiename:	Nicht spezifiziert
Laufzeit:	Nicht spezifiziert
Datenschutzlink:	https://www.podigee.com/de/ueber-uns/datenschutz/
Host:	.podigee.com

Anbieter:	Google Ireland Limited, Gordon House, Barrow Street, Dublin 4, Irland
Cookiename:	SID; HSID; NID
Laufzeit:	2 Jahre; 2 Jahre; 6 Monate
Datenschutzlink:	https://policies.google.com/privacy?hl=de
Host:	.google.com