Einführung in Data Mesh

Wie Unternehmen von dezentraler Datenverwaltung profitieren

  • Veröffentlicht:
  • Autor: [at] Redaktion
  • Kategorie: Grundlagen
Inhaltsverzeichnis
    Data Mesh eine Einführung, eine weibliche Plastik, mit einem orangen Netzstoff bekleidet
    Alexander Thamm GmbH 2023, GAI

    Data Mesh beschreibt die Art und Weise, wie Unternehmen ihre Daten verwalten und nutzen. Als fortschrittliches Konzept der Datenarchitektur zielt ein Data Mesh darauf ab, die Herausforderungen zentralisierter Datenstrukturen zu überwinden und eine dezentrale, agile Datenlandschaft zu schaffen. Es ermöglicht die Verbindung von Dateneigentümern, Datenproduzenten und Datenkonsumenten, um den Informationsaustausch zu verbessern und datengesteuerte Prozesse effizienter zu gestalten. Dabei betrachtet ein Data Mesh Daten als wertvolle Produkte, die von den jeweiligen Domänenexperten selbstständig verwaltet und anderen Teams zur Verfügung gestellt werden. Doch wie genau funktioniert dieses Konzept, welche Prinzipien liegen ihm zugrunde und welche Vor- und Nachteile sind mit einer Umsetzung verbunden? Dieser Artikel wird ein umfassender Einblick in die Welt des Data Mesh geben und beleuchten, wie Unternehmen von dieser wegweisenden Datenarchitektur profitieren können.

    Was ist ein Data Mesh?

    Data Mesh beschreibt ein Konzept für die Datenarchitektur in Unternehmen, welches darauf abzielt, die Datenverwaltung zu dezentralisieren und datengesteuerte Prozesse zu verbessern

    Ziel ist es, den Dateneigentümer, den Datenproduzenten und den Datenkonsumenten miteinander zu verbinden. Dabei sollte das Data Mesh Konzept gemäß ihrer Begründerin Zhamak Dehghani vor allem an jenen Herausforderungen ansetzen, bei welchen zentralisierte und monolithische Datenstrukturen an ihre Grenzen stoßen. Dies trifft vor allem auf die Organisation und die Zugänglichkeit der Daten zu. 

    Beim Data Mesh Ansatz werden Daten als Produkte angesehen und die Verbraucher dieser Daten sollten als Kunden behandelt werden. Das Prinzip der Daten als Produkte anzusehen, zielt darauf ab, die Probleme der Datenqualität und der veralteten Datensilos, auch als „Dark Data“ bezeichnet, anzugehen. Dark Data sind die Informationen, die Organisationen im Rahmen ihrer regulären Geschäftsaktivitäten sammeln, verarbeiten und speichern, jedoch im Allgemeinen nicht für andere Zwecke nutzen.

    Unterschiede von Data Mesh und Data Fabric

    Data Mesh und Data Fabric beschreiben zwei Ansätze für eine Datenarchitektur, welche jedoch verschiedene Schwerpunkte haben. 

    Während sich Data Mesh auf die dezentrale Datenverwaltung und die Autonomie der datenbesitzenden Teams konzentriert und es darauf abzielt, Daten als Produkte zu betrachten und die Selbstbedienungsfähigkeit fördert, ist eine Data Fabric hingegen ein integrierter Datenansatz, der die verschiedenen Datenspeicher, Datenquellen und Datenverarbeitungstechnologien eines Unternehmens nahtlos miteinander verbindet. Es betont die Einheitlichkeit und Konsistenz der Datenzugriffe und -transformationen und strebt eine zentrale Datenkontrolle an, um eine einheitliche Sicht auf die Daten zu gewähren.

    In Bezug auf Datensicherheit liegt beim Data Mesh die Verantwortung bei den einzelnen Teams, während eine Data Fabric eine zentralisierte Datensicherheit ermöglicht. Data Mesh betont die Eigenverantwortung der Teams in Bezug auf Data Governance, während die Data Fabric eine zentralisierte Data Governance umfassen kann. Data Mesh ist für komplexe und skalierende Datenlandschaften geeignet, während eine Data Fabric die durchgängige Verbindung und Verarbeitung großer Datenmengen über unterschiedliche Systeme hinweg erleichtern soll.

    Trotz der unterschiedlichen Schwerpunkte von Data Mesh und Data Fabric können die beiden Ansätze kombiniert werden, um eine durchgängige Datenstrategie zu entwickeln und Nutzen aus beiden Ansätze zu generieren. Eine Möglichkeit besteht darin, eine Data Fabric als grundlegende Dateninfrastruktur zu implementieren, auf der das Data-Mesh-Konzept basiert. Dadurch erhält man eine einheitliche Sicht auf die Daten, ermöglicht Datenintegration über verschiedene Systeme hinweg und unterstützt die Skalierbarkeit der Dateninfrastruktur. So haben die Teams im Data Mesh eine solide Grundlage, um auf qualitativ hochwertige und integrierte Daten zuzugreifen und brauchen sich nicht um die technischen Aspekte der Datenintegration zu sorgen. 

    Ein alternativer Ansatz ist es, Teile des Data Mesh in die Data Fabric Strategie zu implementieren. Konkret bedeutet dies, dass die Verantwortung für die Daten nicht lediglich auf zentrale Einheiten, sondern auch auf die einzelnen Teams in der Data Fabric verteilt wird. Dabei wird jedes Team dabei zu einem sogenannten „Data Product Owner“ für die Daten, welche es verwaltet. Dieser Ansatz bestärkt die dezentrale Verantwortung und Zusammenarbeit, wie es gemäß dem Data Mesh Konzepts bestimmt ist. Zeitgleich wird durch die Data Fabric die Infrastruktur sichergestellt, sodass die Datenintegration, Datenqualität und Data Governance über alle Teams hinweg konsistent und effizient sind.

    Unterschiede von Data Mesh und Data Lake

    Ähnlich wie eine Data Fabric beschreibt auch ein Data Lake einen Ansatz einer Datenarchitektur, welche sich zu einer Data Fabric oder einem Data Mesh unterscheidet, jedoch auch einige Gemeinsamkeiten aufweist. Ein Data Lake ist ein zentraler Speicher, der eine große Menge unstrukturierter und strukturierter Daten aus verschiedenen Quellen aufnimmt. Es bietet eine kostengünstige Möglichkeit, Daten zu speichern, bevor sie analysiert oder in andere Systeme geladen werden. In einem Data Lake können Daten leicht zusammengeführt und analysiert werden, was ihn zu einem wertvollen Werkzeug für Big-Data-Analysen macht.

    Im Gegensatz dazu ist ein Data Mesh dezentralisiert, da es die Verantwortung für die Daten auf die datenbesitzenden Teams in den Domänen verteilt. Jedes Team ist für die Verwaltung seiner eigenen Daten verantwortlich und stellt sie anderen Teams über standardisierte Schnittstellen zur Verfügung. Dadurch wird eine engere Integration zwischen den Geschäftsbereichen und den Daten selbst erreicht, was die Agilität und Flexibilität erhöht.

    Obwohl ein Data Mesh und ein Data Lake (sowie auch eine Data Fabric) verschiedene Herangehensweisen darstellen, können sie in manchen Situationen miteinander verbunden werden. Zum Beispiel könnte ein Data Lake als Grundlage dienen, auf der die Prinzipien von Data Mesh oder Data Fabric angewendet werden, um eine dezentrale Datenverantwortung oder eine einheitliche Dateninfrastruktur zu ermöglichen. Alternativ könnte ein Data Lake als zentrale Datenquelle fungieren, welche für verschiedene Domänen dienlich ist. Auch innerhalb eines Data Mesh können einzelne Teams und Domänen ihre eigenen Data Lakes generieren, um so ihre Daten zu organisieren.

    4 Prinzipien des Data Mesh

    Das Data Mesh Konzept basiert auf den folgenden 4 Prinzipien:

    1. Domain ownership: Die Daten sind in einem Data Mesh in sogenannten Domänen organisiert, die jeweils einem bestimmten Geschäftsbereich in einem Unternehmen entsprechen. Die Teams innerhalb dieser Domänen sind durch Domänenexperten für die Verwaltung, Qualitätssicherung und Freigabe ihrer Daten selbst verantwortlich. Dadurch entsteht ein dezentraler Datenbesitz, welcher die Agilität und Flexibilität erhöht.
    2. Data as a product: Data Mesh behandelt Daten als Produkte, welche von den erwähnten Domänenexperten gemäß definierten Rollen erstellt, gewartet und den internen oder externen Nutzern zur Verfügung gestellt werden. Dies bedeutet, dass Datenproduzenten und Datenkonsumenten direkt zusammenarbeiten, ähnlich wie beispielsweise in einem Produktentwicklungsteam.
    3. Self-Service data platforms: Das Konzept fördert den Aufbau von sogenannten „selbstbedienungsfähigen Plattformen“, welche es den datenbesitzenden Teams ermöglichen, ihre Daten mithilfe von standardisierten APIs und Schnittstellen einfach freizugeben und zugänglich zu machen. Dadurch wird die Zusammenarbeit zwischen den Teams erleichtert und die Abhängigkeit von zentralisierten Datenplattformen reduziert. Zudem unterstützt diese Vorgehensweise die Datenintegration, Qualitätssicherung und Analysemöglichkeit der Daten.
    4. Federated computational governance: Data Mesh fördert eine dezentrale Data-Governance-Struktur, in der jedes Domänenteam die Autorität über seine eigenen Daten und Datenprodukte hat und sicherstellt, dass Datenschutz, Sicherheit und Compliance gewährleistet ist, ohne dabei die Autonomie der datenbesitzenden Teams einzuschränken. Es bestehen jedoch auch bestimmte übergreifende Governance-Richtlinien und Standards, die von einem zentralen Gremium oder einer datenorientierten Community festgelegt werden.

    Nutzen und Herausforderungen

    Als modernes Architekturkonzept dezentralisiert das Data Mesh die Datenverwaltung in Unternehmen und stellt Daten dort bereit, wo sie entstehen.Dadurch sollen Silos aufgebrochen, die Datenqualität verbessert und datengesteuerte Prozesse beschleunigt werden. Wie jedes Konzept bringt jedoch auch das Data Mesh sowohl Vorteile als auch Herausforderungen mit sich, welche wir im Folgenden genauer beleuchten.

    Nutzen einer Data Mesh Architektur

    • Skalierbarkeit und Agilität: Mit Data Mesh können Unternehmen ihre Datenarchitektur flexibel an wachsende Anforderungen anpassen. Anstatt zentrale Engpässe zu belasten, skalieren die einzelnen Domänen eigenständig und reagieren schneller auf Veränderungen im Markt. Das erhöht die Effizienz und verkürzt die Zeit bis zur Markteinführung neuer Lösungen.
    • Höhere Datenqualität durch Domänenverantwortung: Wenn Fach-Teams ihre eigenen Daten wie Produkte behandeln, steigt die Qualität. Sie kennen die Business-Kontexte am besten und können für Konsistenz und Relevanz sorgen. Voraussetzung: klare Governance- und Qualitätsstandards.
    • Demokratisierter Datenzugang: Self-Service-Zugänge zu Daten erleichtern die Nutzung im gesamten Unternehmen – nicht nur für Data Scientists. Richtig umgesetzt fördert das die Innovation, beschleunigt Entscheidungsprozesse und reduziert Abhängigkeiten von zentralen IT-Teams.
    • Reduzierte Komplexität und Abhängigkeiten: Durch die Verteilung von Verantwortung und die Nutzung moderner Plattformen sinkt die Last zentraler Infrastrukturen. Automatisierung und Standardisierung machen komplexe Prozesse beherrschbar und verringern zugleich Abhängigkeiten, die in traditionellen Architekturen häufig zu Engpässen führen.
    • Sicherheit, Compliance und Vertrauen: Dezentrale Datenarchitekturen müssen nicht unsicher sein – im Gegenteil: Mit automatisierten Richtlinien und Policy-as-Code lassen sich Zugriffskontrollen, Auditfähigkeit und regulatorische Anforderungen zuverlässig umsetzen. Das stärkt Vertrauen bei Kunden und Partnern.

    Herausforderungen einer Data Mesh Architektur

    • Höhere Komplexität: Die Verteilung von Datenverantwortung über viele Domänen erhöht die Komplexität. Unterschiedliche Datenquellen, Pipelines und Technologien müssen integriert werden. Ohne klare Prozesse für Datenschutz, Datensicherheit und Integration kann dies schnell unübersichtlich und fehleranfällig werden.
    • Governance und Datenqualität: Wenn Datenverantwortung auf viele Teams verteilt ist, wird es schwieriger, einheitliche Standards und Richtlinien durchzusetzen. Das Risiko: Inkonsistenzen in Datenqualität und -interpretation sowie mögliche Lücken bei Sicherheit und Compliance.
    • Koordinationsaufwand: Ein dezentrales Modell erfordert intensive Abstimmung zwischen Domänenteams. Kommunikation und Synchronisation über Abteilungen, Standorte und Zeitzonen hinweg verursachen zusätzlichen Overhead und können Projekte verlangsamen.
    • Kulturelle Hürden: Data Mesh bedeutet einen organisatorischen Kulturwandel: mehr Autonomie für Teams, weniger zentrale Steuerung. Das erfordert neue Verantwortlichkeiten, Arbeitsweisen und oft auch eine andere Denkweise im Umgang mit Daten.
    • Kosten und Implementierungsaufwand: Die Umstellung von einer zentralisierten Datenarchitektur auf ein Data Mesh ist mit Investitionen in Technologie, Training und Change-Management verbunden. Kurzfristig steigen Kosten und Aufwand, bevor langfristige Effizienzgewinne greifen.

    Anwendungsbereiche

    Bereichsspezifische Analysen

    In großen Unternehmen benötigen Abteilungen wie Marketing, Finanzen oder Operations oft eigene, kontextspezifische Datenanalysen. Mit Data Mesh verwalten die jeweiligen Teams ihre Datenprodukte selbst und stellen sie in hoher Qualität bereit. Dadurch entfällt die Abhängigkeit von einer zentralen Datenabteilung und Entscheidungen werden schneller getroffen.

    Produktinnovation durch Datenprodukte

    Data Mesh betrachtet Daten als Produkte, die klar definiert, dokumentiert und für andere Teams wiederverwendbar sind. Ein E-Commerce-Unternehmen kann beispielsweise ein standardisiertes Bestell-Datenprodukt entwickeln, das neben Transaktionsdetails auch Informationen zu Lieferstatus, Retouren und Zahlungsarten enthält. Dieses Datenprodukt kann dann von der Logistik genutzt werden, um Lieferketten zu optimieren, und vom Kundensupport, um Anfragen schneller und präziser zu bearbeiten. So entsteht aus einem einmal gepflegten Datenprodukt ein Mehrwert für mehrere Unternehmensbereiche.

    Schnellere Experimente und Prototypen

    Teams können auf qualitätsgesicherte Datenprodukte anderer Domänen zugreifen, ohne lange Wartezeiten durch zentrale IT-Prozesse. Dies ermöglicht schnelle A/B-Tests, Pilotprojekte oder Marktexperimente. Unternehmen steigern dadurch ihre Agilität und bringen neue Ideen rascher zur Marktreife.

    Dezentralisierte KI- und ML-Modelle

    In diesem Fall entwickelt nicht nur ein zentrales Data-Science-Team KI-Modelle. Auch Fachbereiche wie HR, Marketing oder Risikomanagement können eigene Machine-Learning-Anwendungen direkt auf ihren Domänendaten trainieren. Die Nähe zu den Daten erhöht die Präzision und fachliche Relevanz der Modelle, während gemeinsame Standards gleichzeitig sicherstellen, dass Governance- und Sicherheitsanforderungen eingehalten werden.

    Wie implementiere ich ein Data Mesh in meinem Unternehmen?

    Die Einführung eines Data Mesh erfordert eine sorgfältige Planung und eine schrittweise Umsetzung. Nachfolgend wird der Standardablauf des Implementierungsprozesses eines Data Mesh in einem Unternehmen beschrieben:

    1. Datenstrategie festlegen bzw. Identifizierung der Datendomänen: Im ersten Schritt sollten klare Ziele und Strategien für die Datenlandschaft definiert werden. Dafür ist es unter anderem auch nützlich, Domänenexperten und die exakten Verantwortungsbereiche zu identifizieren und zu beschreiben.
    2. Organisatorische Veränderungen: Eine Veränderung der Datenarchitektur geht auch immer mit einem Wandel der Kultur der Zusammenarbeit in puncto einer dezentralen Datenverantwortung einher. Aus diesem Grund sollten Mitarbeiter in ihren neuen Rollen und Verantwortlichkeiten geschult werden.
    3. Technologische Umsetzung: Die technische Umsetzung erfolgt im Rahmen der Implementierung der Self-Service-Plattform, welche es den einzelnen Teams ermöglicht, ihre Datenprodukte in der Datenarchitektur des Data Mesh selbstständig zu erstellen und zu verwalten.
    4. Förderung einer föderierten Data Governance und der Sicherheitsmaßnahmen: Bei der Umstellung (vor allem von einer zentralen Datenarchitektur) ist zu beachten, dass ein Data Mesh eine föderierte Governance erfordert, bei welcher die Verantwortung für die Datenverwaltung zwischen den verschiedenen Datendomänen geteilt wird. Dies bedeutet, dass jedes Team für die Qualität und den Zugriff auf seine eigenen Daten verantwortlich ist. Diese Denkweise sollte entsprechend gefördert werden.
    5. Monitoring und Evaluierung: Durch eine Überwachung und Bewertung des Nutzens des Data Mesh können Strukturen und Prozesse angepasst und optimiert werden.

    Data-Mesh-Lösungen

    Es bestehen verschiedene Lösungen und Tools, welche Unternehmen dabei unterstützen, ein Data Mesh erfolgreich einzusetzen:

    • Amazon Web Services (AWS): AWS stellt mehrere Tools und Dienste, die bei der Implementierung eines Data Mesh helfen können, zur Verfügung. Dazu gehören unter anderem Amazon S3 für die Speicherung von Daten, Amazon Glue für die Datenintegration und -transformation sowie Amazon Athena für die Abfrage von Daten.
    • Microsoft Azure: Azure bietet auch eine Reihe von Tools zur Unterstützung von Data Mesh Architekturen an. Dazu gehören beispielsweise Azure Data Factory für die Datenintegration und -transformation sowie Azure Synapse Analytics für die Abfrage von Daten. Microsoft stellt mit Azure Data Lake Storage auch einen Dienst für die Speicherung von Daten zur Verfügung. Es unterstützt die Integration von Azure-Diensten und Tools von Drittanbietern, um eine nahtlose Datenbewegung und -verarbeitung zu gewährleisten.
    • IBM: Mit IBM Data Fabric on Cloud Pak for Data liefert IBM eine integrierte Daten- und KI-Plattform, die Tools für die Datenspeicherung, -integration und -analyse bereitstellt, wodurch ein echter Self-Service von Datenprodukten auf Unternehmensebene geschaffen werden kann.
    • Talend: Talend beschreibt einen Anbieter von Datenintegrations- und Datenqualitätslösungen, welcher mit seinem Data Catalog Unterstützung für Data Mesh Architekturen zur Verfügung stellt. Mit diesem Tool ist es möglich ein Data Mesh zu erstellen und die Daten unter anderem zu teilen und zu verwalten.

    Fazit

    Mit einem Data Mesh greift man auf ein Konzept zur dezentralen Datenarchitektur zurück, welches darauf abzielt, die Datenverwaltung zu verbessern. Es verbindet Dateneigentümer, -produzenten und -konsumenten, indem es Daten als Produkte betrachtet und die Selbstbedienungsfähigkeit fördert. Aufgrund der Vorteile eines Data Mesh wie beispielsweise der guten Skalierbarkeit, der Demokratisierung von Daten, der Reduzierung technischer Schulden oder der Interoperabilität kann diese dezentrale Datenarchitektur Unternehmen einen großen Nutzen bringen. In Kombinationen mit ähnlichen Ansätzen wie einer Data Fabric oder einem Data Lake können Unternehmen ihre Datenverwaltung verbessern, die Zusammenarbeit zwischen den Teams fördern und von den Vorteilen einer dezentralen Datenarchitektur profitieren.

    Diesen Beitrag teilen:

    Autor

    [at] Redaktion

    Mit umfassendem Fachwissen in Technologie und Wissenschaft bereitet unser AutorInnen-Team komplexe Themen klar und verständlich auf. In ihrer Freizeit widmen sie sich kreativen Projekten, erkunden neue Wissensgebiete und lassen sich von Forschung und Kultur inspirieren.

    X

    Cookie Freigabe

    Diese Website verwendet notwendige Cookies zur Sicherstellung des Betriebs der Website. Eine Analyse des Nutzerverhaltens durch Dritte findet nicht statt. Detaillierte Informationen über den Einsatz von Cookies finden Sie in unseren Datenschutzerklärung.