AT_Logo

Data Warehouse – Schnee von gestern?

von | 24. November 2021 | Grundlagen

Big Data birgt eine große Chance, den Umsatz eines Unternehmens zu steigern, und ist deswegen ein universaler Grundstein für branchenübergreifenden Erfolg. Damit mit großen Datenmengen umgegangen werden kann, bedarf es einer Datensammlung, welche für Analysezwecke geeignet ist. An dieser Stelle kommt ein Data Warehousing ins Spiel, welches Unternehmen genau dies ermöglicht. Neben Data Warehousing gibt es heute aber alternative Verfahren wie beispielsweise Data Lakes oder Data Mesh welche je nach Bedürfnissen den Anwender besser entsprechen können. Welche Form der Datensammlung ist also an welcher Stelle am effizientesten?

Die unterschiedlichen Arten von Datensammlungen und deren Auswertung haben sich in den letzten Jahrzehnten stark verändert und entwickelt. Durch neue Entwicklungen, die mit cloudbasierten Rohdaten arbeiten, droht das altbewehrte Data Warehouse den Anschluss zu verlieren. Jedoch gibt es durch die Cloud auch neue Entwicklungen von denen Data Warehousing profitiert. Um dieses Szenario bewerten und anschließend eine informierte Entscheidung treffen zu können, ist es also wichtig, sich die Funktionsweise von Data Warehousing und möglichen Konkurrenzverfahren vor Augen zu führen.

Entstehung von Data Warehouse

Die Erfindung von Data Warehouse in den 80er-Jahren legte so einen Grundstein im Informationsmanagement großer Unternehmen. Zum Beginn der Digitalisierung wuchs das Bestreben von Unternehmen, Daten im größeren Kontext zentral zu sammeln und zu analysieren. So können interne, aber auch externe Entscheidungen immer mehr faktenbasiert gefällt werden. Das führt zu diversen Vorteilen in verschiedenen Unternehmensbereichen, von welchen aber auch Konsumenten profitieren können.

Wie funktioniert ein Data Warehouse System?

Das Wort steht im Allgemeinen für ein Datenbanksystem basierend auf dem Data Warehouse-Konzept. Es bildetet die Grundlage für ein analyseorientiertes Informationsmanagement. Dafür werden Daten nach dem Wasserfall-Modell in eine Datenmanagement-Softwareeingespeist. Daten werden aus lokalen Speichern in eine zentrale Datenbank extrahiert. Danach werden die Daten in ein relationales oder mehrdimensionales Datenmodell übertragen. Auf dieser Basis kann der Datensatz dann zentral ausgewertet und einzelne operative Systeme in ihrer Funktion entlastet und ergänzt werden. Hohe Kosten für Hardware und Softwarelizenzen sowie Dauer und Aufwand begrenzten und erschwerten jedoch langfristig den alleinigen Erfolg von Data Warehousing.

Vorteile eines Data Warehouse

Auch wenn es bereits neuere Entwicklungen wie beispielsweise Data Mesh zu beobachten gibt, hat Data Warehousing weiterhin eine nachvollziehbare Daseinsberechtigung. Der amerikanische Informatiker und Autor Bill Inmon beschreibt folgende Sparten, welche von Data Warehousing profitieren können:

  • Themenorientierung
  • Vereinheitlichung
  • Zeitorientierung
  • Beständigkeit
  • die vereinfachte Charakterisierung

Mittlerweile bieten jedoch auch andere Formen der Datenerhebung und Analyse Vorteile in diesen Bereichen. Außerdem birgt Data Warehousing auch potentielle Probleme, die es zu besprechen gilt.

Limitationen

Kosten

Trotz diverser Vorteile, leidet das Vorgehen nach dem Wasserfallmodell unter Einschränkungen im Einsatz, da große Speicherkapazitäten benötigt werden, in Kombination mit Softwarelizenzen, die zu erwerben sind. In den 80er-Jahren wurden Datensätze noch lokal gespeichert, was sich mit der der Cloud heute größtenteils verändert hat. Damals sorgten große Speicherkapazitäten jedoch für erhebliche finanzielle Belastungen, welche die Umsetzung von Zielen wie Kostensenkung und Umsatzsteigerung erst einmal widersprachen.

Aufwand

Ein Data Warehouse erfordert weiterhin global abgestimmte Kennzahlen, damit Analysen effektiv durchgeführt werden können. Dies sorgt für eine große Abstimmungs- und Spezifikationsphase, die zeitlich intensiv ist. Darauf folgt die Implementierung, welche oft Fehler und Unstimmigkeiten offenbart, die wiederum zu erschwerter Nutzbarkeit oder weiteren Kosten führen kann.

Wie funktionieren Data Lakes ?

Im Jahr 2010 eröffnete sich eine neue Welt der Datenerhebung und Analyse, abgesehen von Data Warehousing, und zwar durch das „Data Lake“ Konstrukt. Dafür werden möglichst viele interne und externe Daten gesammelt, die erst im Anwendungsfall zusammengeführt und klassifiziert werden. Dies benötigt folglich aufgrund weniger komplexer Daten deutlich weniger Speicherkapazitäten.

Vorteile von Data Lakes

Kosten

Die gespeicherten Daten sind unformatierte Rohdaten, was deutlich weniger Speicherplatz benötigt und einen flexiblen und agilen Zugang ermöglicht. So kann „Big Data“ effizienter verarbeitet werden. Mittlerweile bieten diverse Anbieter von Cloudspeicherplatz die Auswertung und Analyse von dort gespeicherten Data Pools an.

Aufwand & Flexibilität

Das Speichern roher, nicht klassifizierter Daten vereinfacht es außerdem, die neusten Daten einer Datensammlung miteinzubeziehen. Im Vergleich dazu entschleunigen die bei Data Warehouse regelmäßig durchzuführenden Klassifizierungen den Analyseprozess.

Limitationen von Data Lakes

Ungenauigkeit

Werden Analysen mit Daten aus einem Data Lake durchgeführt, gestaltet es sich schwierig, Teile der Rohdaten auszuschließen, da die Daten noch nicht klassifiziert wurden. Das führt dazu, dass von Grund auf stets mit dem ganzen Datensatz gearbeitet wird, auch wenn durch Data Scientists zielgerichtet selektiert werden kann.

Sicherheit

Da die Datensammlung sich bei Data Lakes mittlerweile meist in einer Cloud befinden, ist es essenziell, dass die Sicherheit dieser Cloud garantiert werden kann. Bekannte Anbieter agieren jedoch heute auf einem hohen Sicherheitsstandard.

Zugänglichkeit

Der Umgang mit Data Lakes ohne BI Tools oder modellierte Zugriffslayers erfordert Softwarespezialisten, welche die Schnittstelle zwischen Informatik und Wirtschaft bilden. Die Zugänglichkeit ist also ohne Optimierungen nur eingeschränkt möglich.

Data Mesh

Nach neusten Entwicklungen werden Datenpools mittlerweile für den noch neueren „Data Mesh“ Ansatz genutzt. Dabei handelt es sich um eine Entwicklung, bei welcher verschiedene, nach fachlichen Domänen geschnittene Data Lakes kombiniert und zu Analysezwecken genutzt werden. Diese zielgerichtete Strukturierung von nicht klassifizierten Rohdaten, wie sie in Data Lakes zu finden sind, führt zu einer besseren Nutzbarkeit der unterschiedlichen Datenpools, und wird aktuell als sehr vielversprechender Ansatz eingeschätzt.

Vorteile von Data Mesh

Der dezentralisierte Data Mesh Ansatz bietet Verbesserungen in Bereichen der Organisation  und Skalierbarkeit, was zu durchsichtigeren Verantwortlichkeiten in der Durchführung führt. Dafür wird versucht, die Zusammenarbeit zwischen Datenerhebung und Datenverarbeitung möglichst eng zu halten, um so mehr Qualität zu erhalten.

Limitationen von Data Mesh

Damit das Data Mesh Paradigma optimal funktioniert, erfordert es verbesserte Organisationsstrukturen und eindeutige Verantwortungsbereiche. Außerdem sollte es klare Informationen über Eigentümer und Urpsrung von einzelnen Daten geben, damit keine Unklarheiten enstehen.

Datenpools vs. Data Warehouse

Mit neuen Speichermöglichkeiten in der Cloud schwand die Bedeutung von Apache Hadoop als Basis für viele Data Lakes. Auch die komplementären Architekturpatterns sorgten für eine sich stark unterscheidende Einordnung von Data Lakes und Data Warehousing, nicht zuletzt aufgrund der technischen Eigenschaften der Apache Hadoop Stack Komponenten.

Aufgrund von neuen technischen Entwicklungen gibt es mittlerweile die Möglichkeit, klassische eDWH auf gleicher technologischer Basis wie Data Lakes zu verarbeiten. Die in einem eDWH zu lösenden Themenkomplexe bleiben unabhängig von diesen Faktoren gleich. Beispiele dafür sind:

  • Schnittstellenanbindung
  • Datenmodellierung
  • Kennzahlendefinition
  • Metadatenbeschreibung
  • Prozess- und Verantwortlichkeitsdefinition für Governance Aufgaben

Diese Entwicklung modernisierte die Anwenderfreundlichkeit von Data Warehousing und erleichtert die kombinierte Anwendung von Data Warehouses und Data Lakes.

Die Zukunft von Data Warehousing und Data Lakes

Data Warehousing hat von der technischen Weiterentwicklung seit den 80er-Jahren profitiert, was die Konkurrenzfähigkeit mit Data Lakes durchaus gesteigert hat. Heutzutage sind Data Warehouses für bestimmte Unternehmen oder Institutionen aufgrund neuer Speicherformen wie der Cloud weiterhin sinnvoll und werden meist in Kombination mit Data Lakes benutzt.

Was das Data Warehouse Konzept weiterhin attraktiv macht, ist die Zugänglichkeit für alle Angestellten eines Unternehmens, während der Umgang mit Data Lakes Spezialisten erfordert. Diese Big Data Softwarespezialisten sind auf dem Arbeitsmarkt sehr gefragt und deswegen schwierig zu finden.

Es lässt sich vermuten, dass die Cloud und mögliche Neuentwicklungen diesbezüglich der ausschlaggebende Faktor für die Zukunft von Data Warehousing sind. Sollte sich in Zukunft auch die Usability für diverse Berufsgruppen und „Nichtspezialisten“ durch BI Tools oder modellierte Zugriffslayers verbessern, wird Data Warehousing vielleicht relevanter denn je sein.

<a href="https://www.alexanderthamm.com/de/blog/author/at-redaktion/" target="_self">[at] REDAKTION</a>

[at] REDAKTION

Unsere AT Redaktion besteht aus verschiedenen Mitarbeitern, die mit größter Sorgfalt und nach Bestem Wissen und Gewissen die entsprechenden Blogartikel ausarbeiten. Unsere Experten aus dem jeweiligen Fachgebiet versorgen Sie regelmäßig mit aktuellen Beiträgen aus dem Data Science und AI Bereich. Wir wünschen viel Freude beim Lesen.

0 Kommentare

Einen Kommentar abschicken

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.