Der Datenkatalog – Die Grundlage für datengetriebene Use Cases

von | 14. August 2018 | Grundlagen

Wenn es an die konkrete Umsetzung von datengetriebenen Projekten geht, kommt unweigerlich die Frage nach dem Vorhandensein, der Vollständigkeit und der Verfügbarkeit aller relevanten Daten. Um datengetriebene Use-Cases zielgerichtet konzeptionieren zu können, benötigen alle an einem Projekt beteiligten Mitarbeiter einen Überblick über die Daten. Angefangen von allen existierenden Datenquellen über ihre jeweiligen Ursprünge bis hin zu den verantwortlichen Ansprechpartnern. Für eine produktive Durchführung datengetriebener Use-Cases müssen Ihre Mitarbeiter jederzeit Informationen über inhaltliche und deskriptive Datenqualität,  Verwertungshistorie und Zugriffsrechte abrufen können. Der Datenkatalog beziehungsweise Data Catalog ist das Lösungskonzept für diese Herausforderungen.

Was ist ein Datenkatalog?

Ein Datenkatalog (auch „Datenkatalog“ oder „Data Dictionary“) ist ein zentralisiertes Informationsregister für Datenspektren unterschiedlichster Größe. Manchmal wird darum auch umgangssprachlich von „Datenverzeichnis“ gesprochen. In diesem Verzeichnis sind alle relevanten Informationen zu den vorhandenen Daten und Datenquellen aufgeführt. Damit ist ein Datenkatalog eines der wichtigsten Tools, um Daten zu verwalten, zu überprüfen und für die weitere Verarbeitung aufzufinden.

Auch wenn es im Detail sehr unterschiedliche Typen von Datenkatalogen gibt, ist das übergeordnete Ziel, das ein Datenkatalog verfolgt, immer gleich. Die Mitarbeiter sollen über die Existenz, physische Lokation, Zugriffsrechte und Verwertungshistorie sowie Qualität und Inhalt der Datenquellen informiert werden.

Linktipp: Ein Data Catalog hat eine gewissen Verwandtschaft zum Data Lake. Lesen Sie darum auch unseren Blog-Artikel über alles, was Unternehmen über den Data Lake wissen müssen.

Die Vorteile eines Datenkatalog

  • Sparen Sie Zeit
  • Wissen wird verfügbar gemacht
  • Zuständigkeiten werden geklärt

Ein Datenkatalog wirkt als Produktivitätskatalysator. Sowohl wenn es um die Konzeption als auch um die Umsetzung datengetriebener Use-Cases geht, erfüllt ein Datenkatalog eine wichtige Funktion. Deskriptive Metadaten sparen den Mitarbeitern wertvolle Zeit beim Verständnis und der Organisation von Datenquellen. Und umgekehrt gilt: Unstrukturierte Daten und unvollständigen, falschen beziehungsweise doppeldeutigen Attributen versehene Datensätze erschweren die Arbeit vor und während eines Analyseprojektes enorm.

Visualisierung eines Datensatzes mit verschiedenen Varianten für das Attribut „unbekannt“.
Visualisierung eines Datensatzes mit verschiedenen Varianten für das Attribut „unbekannt“.

Die Erstellung eines Data Catalog schafft aber auch noch aus weiteren Gründen einen Mehrwert. Zum einen werden zuverlässig alle Daten erfasst, das heißt auch bislang nicht zugängliches Wissen wird verfügbar gemacht. Zum anderen werden alle Daten leichter zugänglich gemacht. Das eröffnet die Möglichkeit, zahlreiche weitere Use Cases für die vorhandenen Datenquellen zu entwickeln. Nicht zuletzt ist die drastische Ersparnis von Zeit, die oft für die Suche nach Datenquellen aufgewendet werden muss, ein wichtiger ökonomischer Faktor, der für einen Datenkatalog spricht.

Linktipp: Metadaten sind nur ein Bestandteil für eine Strategie, die zu optimaler Datenqualität führt – darum haben wir in diesem Blog-Beitrag alle relevanten zusammengefasst.

Der Data Catalog und nachhaltiges Wissensmanagement

Ein Data Catalog kann als kollaborative Informationsplattform konzipiert werden. Das bedeutet, dass alle Mitarbeiter die Möglichkeit erhalten, ihre gewonnenen Erkenntnisse in das System einzupflegen. Damit bleibt das Wissen langfristig für das Umfeld erhalten und durch den entstehenden Produktivitätsgewinn werden Ihre Mitarbeiter weiter motiviert. Damit dies gelingt, müssen die Zuständigkeiten beim Umgang mit Daten prinzipiell geklärt werden. Die Grundlage für einen erfolgreichen Übergang zu einer datengetriebenen Organisation ist: Data Governance.

Das Befüllen des Datenkatalogs in 3 Schritten

Das Aufsetzen eines Datenkatalogs verstehen wir von der Alexander Thamm GmbH als einen Standardprozess. Diesen Prozess haben wir in unseren über 500 erfolgreich durchgeführten datengetriebenen Use Cases erfolgreich durchgeführt. Das Befüllen eines Datenkatalogs läuft dabei immer in 3 wesentlichen Schritten ab:

  1. Der Beratung zur Auswahl passender Softwareumgebungen oder der Bereitstellung eines Templates zum Betreiben eines Datenkatalogs.
  2. Dem initialen Befüllen Ihres Datenkatalogs in Zusammenarbeit mit Ihren Mitarbeitern.
  3. Der Schulungen Ihrer Mitarbeiter zur Administration und Nutzung des Datenkatalogs.

Erst durch das Zusammenwirken aller drei Schritte, wird der Datenkatalog zu einem nachhaltigen Instrument, das die Grundlagen für datengetriebene Use Cases schafft.

Autor:innen

Michaela Tiedemann

Michaela Tiedemann ist seit den jungen Startup Tagen der Alexander Thamm GmbH mit im Team. Sie hat die Entwicklung vom schnelllebigen, spontanen Startup hin zum erfolgreichen Unternehmen aktiv mitgestaltet. Mit der Gründung einer eigenen Familie begann für Michaela Tiedemann dann parallel dazu ein ganz neues Kapitel. Den Job an den Nagel zu hängen, kam für die frisch gebackene Mutter aber nicht in Frage. Stattdessen entwickelte sie eine Strategie, wie sie ihre Stelle als Chief Marketing Officer mit ihrer Rolle als Mutter in Einklang bringen kann.

0 Kommentare

Einen Kommentar abschicken

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert