Der Datenkatalog – Die Grundlage für datengetriebene Use Cases

Veröffentlicht: 14.08.2018
Kategorie: Grundlagen

Inhaltsverzeichnis

Wenn es an die konkrete Umsetzung von datengetriebenen Projekten geht, kommt unweigerlich die Frage nach dem Vorhandensein, der Vollständigkeit und der Verfügbarkeit aller relevanten Daten. Um datengetriebene Use-Cases zielgerichtet konzeptionieren zu können, benötigen alle an einem Projekt beteiligten Mitarbeiter einen Überblick über die Daten. Angefangen von allen existierenden Datenquellen über ihre jeweiligen Ursprünge bis hin zu den verantwortlichen Ansprechpartnern. Für eine produktive Durchführung datengetriebener Use-Cases müssen Ihre Mitarbeiter jederzeit Informationen über inhaltliche und deskriptive Datenqualität, Verwertungshistorie und Zugriffsrechte abrufen können. Der Datenkatalog beziehungsweise Data Catalog ist das Lösungskonzept für diese Herausforderungen.

Was ist ein Datenkatalog?

Ein Datenkatalog (auch „Datenkatalog“ oder „Data Dictionary“) ist ein zentralisiertes Informationsregister für Datenspektren unterschiedlichster Größe. Manchmal wird darum auch umgangssprachlich von „Datenverzeichnis“ gesprochen. In diesem Verzeichnis sind alle relevanten Informationen zu den vorhandenen Daten und Datenquellen aufgeführt. Damit ist ein Datenkatalog eines der wichtigsten Tools, um Daten zu verwalten, zu überprüfen und für die weitere Verarbeitung aufzufinden.

Auch wenn es im Detail sehr unterschiedliche Typen von Datenkatalogen gibt, ist das übergeordnete Ziel, das ein Datenkatalog verfolgt, immer gleich. Die Mitarbeiter sollen über die Existenz, physische Lokation, Zugriffsrechte und Verwertungshistorie sowie Qualität und Inhalt der Datenquellen informiert werden.

Linktipp: Ein Data Catalog hat eine gewissen Verwandtschaft zum Data Lake. Lesen Sie darum auch unseren Blog-Artikel über alles, was Unternehmen über den Data Lake wissen müssen.

Die Vorteile eines Datenkatalog

Sparen Sie Zeit
Wissen wird verfügbar gemacht
Zuständigkeiten werden geklärt

Ein Datenkatalog wirkt als Produktivitätskatalysator. Sowohl wenn es um die Konzeption als auch um die Umsetzung datengetriebener Use-Cases geht, erfüllt ein Datenkatalog eine wichtige Funktion. Deskriptive Metadaten sparen den Mitarbeitern wertvolle Zeit beim Verständnis und der Organisation von Datenquellen. Und umgekehrt gilt: Unstrukturierte Daten und unvollständigen, falschen beziehungsweise doppeldeutigen Attributen versehene Datensätze erschweren die Arbeit vor und während eines Analyseprojektes enorm.

Visualisierung eines Datensatzes mit verschiedenen Varianten für das Attribut „unbekannt“.

Die Erstellung eines Data Catalog schafft aber auch noch aus weiteren Gründen einen Mehrwert. Zum einen werden zuverlässig alle Daten erfasst, das heißt auch bislang nicht zugängliches Wissen wird verfügbar gemacht. Zum anderen werden alle Daten leichter zugänglich gemacht. Das eröffnet die Möglichkeit, zahlreiche weitere Use Cases für die vorhandenen Datenquellen zu entwickeln. Nicht zuletzt ist die drastische Ersparnis von Zeit, die oft für die Suche nach Datenquellen aufgewendet werden muss, ein wichtiger ökonomischer Faktor, der für einen Datenkatalog spricht.

Linktipp: Metadaten sind nur ein Bestandteil für eine Strategie, die zu optimaler Datenqualität führt – darum haben wir in diesem Blog-Beitrag alle relevanten zusammengefasst.

Der Data Catalog und nachhaltiges Wissensmanagement

Ein Data Catalog kann als kollaborative Informationsplattform konzipiert werden. Das bedeutet, dass alle Mitarbeiter die Möglichkeit erhalten, ihre gewonnenen Erkenntnisse in das System einzupflegen. Damit bleibt das Wissen langfristig für das Umfeld erhalten und durch den entstehenden Produktivitätsgewinn werden Ihre Mitarbeiter weiter motiviert. Damit dies gelingt, müssen die Zuständigkeiten beim Umgang mit Daten prinzipiell geklärt werden. Die Grundlage für einen erfolgreichen Übergang zu einer datengetriebenen Organisation ist: Data Governance.

Das Befüllen des Datenkatalogs in 3 Schritten

Das Aufsetzen eines Datenkatalogs verstehen wir von der Alexander Thamm GmbH als einen Standardprozess. Diesen Prozess haben wir in unseren über 500 erfolgreich durchgeführten datengetriebenen Use Cases erfolgreich durchgeführt. Das Befüllen eines Datenkatalogs läuft dabei immer in 3 wesentlichen Schritten ab:

Der Beratung zur Auswahl passender Softwareumgebungen oder der Bereitstellung eines Templates zum Betreiben eines Datenkatalogs.
Dem initialen Befüllen Ihres Datenkatalogs in Zusammenarbeit mit Ihren Mitarbeitern.
Der Schulungen Ihrer Mitarbeiter zur Administration und Nutzung des Datenkatalogs.

Erst durch das Zusammenwirken aller drei Schritte, wird der Datenkatalog zu einem nachhaltigen Instrument, das die Grundlagen für datengetriebene Use Cases schafft.

Diesen Beitrag teilen:

Anbieter:	HubSpot, Inc., 25 First Street, Cambridge, MA 02141, USA
Cookiename:	__hstc; hubspotutk; __hssc; __hssrc; __cf_bm; __cfruid
Laufzeit:	6 Monate; 6 Monate; 30 Minuten; Sitzungsende; 30 Minuten; Sitzungsende
Datenschutzlink:	https://legal.hubspot.com/de/privacy-policy
Host:	.hubspot.com

Anbieter:	InnoCraft Ltd., 150 Willis St, 6011 Wellington, New Zealand
Cookiename:	_pk_id..; _pk_ses..
Laufzeit:	13 Monate; 30 Minuten
Datenschutzlink:	https://matomo.org/gdpr-analytics/
Host:	.matomo.cloud

Anbieter:	Google Ireland Limited, Gordon House, Barrow Street, Dublin 4, Ireland
Cookiename:	YSC; VISITOR_INFO1_LIVE; PREF
Laufzeit:	Sitzungsende; 6 Monate; 8 Monate
Datenschutzlink:	https://policies.google.com/privacy?hl=de
Host:	.youtube.com

Anbieter:	Podigee GmbH, Revaler Straße 28, 10245 Berlin, Deutschland
Cookiename:	Nicht spezifiziert
Laufzeit:	Nicht spezifiziert
Datenschutzlink:	https://www.podigee.com/de/ueber-uns/datenschutz/
Host:	.podigee.com

Anbieter:	Google Ireland Limited, Gordon House, Barrow Street, Dublin 4, Irland
Cookiename:	SID; HSID; NID
Laufzeit:	2 Jahre; 2 Jahre; 6 Monate
Datenschutzlink:	https://policies.google.com/privacy?hl=de
Host:	.google.com