Data Pipelines für verlässliche und schnelle Datenbereitstellung.

von | 13. November 2018 | Grundlagen

Im Rahmen von datengetriebenen Projekten gibt es viele Herausforderungen. Die Prozesse zur Datenbereitstellung und dem Laden von Daten sind für die Umsetzung von datengetriebenen Projekten unabdingbar/essenziell. Bei Pilot-Projekten oder Projekten zum Proof-of-Concept kann dies meistens noch durch manuelle Uploads und einmalige Transformationen geleistet werden. Data Pipelines kommen also dann ins Spiel, wenn ein Data-Science-Projekt sich von der explorativen Phase hin zu einem fertigen Data Produkt entwickelt. Denn mit den steigenden Anforderungen an Geschwindigkeit, Regelmäßigkeit und Verlässlichkeit der Datenbereitstellung werden Data Pipelines notwendig.

Die Anforderungen an die Datenbereitstellung werden also im Laufe der Produktivsetzung von Projekten immer wichtiger. Aber auch schon bei der Exploration von neuen Fragestellungen kann es sinnvoll sein, sich frühzeitig mit den technischen Aspekten von Datenprojekten in Bezug auf Data Pipelines zu beschäftigen. Das verhindert Probleme und Verzögerungen im späteren Verlauf der Projekte.

Definition einer Data Pipeline

Eine Data Pipeline ist eine der fünf Dimensionen von datengetriebenen Projekten. Eine Data Pipeline ist in anderen Worten ein integraler Bestandteil eines datengetriebenen Projektes. Die Data Pipeline lädt dabei Daten aus einer oder mehreren Quellen (beispielsweise der Cloud) und stellt sie in der benötigten Form am benötigten Ort zur Verfügung. Dabei können viele verschiedenartige Datenformate und Technologien verwendet werden.

Linktipp: Wenn Sie alles über die fünf Dimensionen datengetriebener Projekte wissen wollen, lesen Sie auch unseren Beitrag zum Data Maturity Assessment.

Eine Data Pipeline umfasst dabei mehrere Schritte:

  1. Die Extraktion der Daten aus verschiedenen Quellsystemen
  2. Die Datenbereinigung und Qualitätsprüfung
  3. Die Datentransformation
  4. Die Ablage bzw. das Speichern der Daten am Zielort oder im Zielsystem

Der Mehrwert von Data Pipelines

  • Verlässliche, einheitliche und nachvollziehbare Datenbasis
  • Reduzierung des Zeitaufwands bei neuen Use Cases
  • Hoch bleibende Qualität der Ergebnisse bei bestehenden Use Cases

Der wichtigste Mehrwert, den Data Pipelines liefern, ist eine verlässliche, einheitliche und nachvollziehbare Datenbasis. Dadurch können beispielsweise nachfolgende Use Cases sehr viel schneller und effizienter entwickelt werden. Der hohe Zeitaufwand bei der Exploration, Aufbereitung und Zusammenfassung von Daten kann dadurch wesentlich reduziert werden.

Linktipp: Lesen Sie hier, mit welchen 5 Maßnahmen eine optimale Datenqualität erzielt werden kann.

Bei bereits bestehenden Use Cases können Data Pipelines eine hoch bleibende Qualität der Ergebnisse sowie eine kontinuierliche Anpassung der Modelle an neue Entwicklungen ermöglichen. Darüber hinaus kann durch die Nachvollziehbarkeit der Daten und der Prozesse die Übereinstimmung mit Data Governance und Data-Security-Richtlinien gewährleistet werden.

Unsere Expertise aus 500 Projekten

Aufgrund der über 500 Datenprojekte, die wir für unsere Kunden in den letzten Jahren durchgeführt haben, können wir auf eine langjährige Erfahrung im Bereich Data Science und Data Engineering zurückgreifen. Dabei zeichnet uns insbesondere die Kombination aus Erfahrungen im Bereich Software-Engineering, Data Science und Data Engineering aus. Im Rahmen unserer vielen Data-Science-Projekte haben wir bereits zahlreiche Data Pipelines gebaut. Wir kennen daher zum einen die Anforderungen, die von Use Cases an die Daten gestellt werden, zum anderen aber auch die Stolpersteine bei der Implementierung von Data Pipelines.

Unsere Dienstleistungen umfassen alle Aspekte von Data Pipelines:

  • Design
  • Technologisches Konzept
  • Architekturkonzept
  • Beratung zu Technologieentscheidungen
  • Definition von Schnittstellen
  • Implementierung
  • Development
  • Testing
  • Integration in bestehende Infrastruktur

Autor:innen

Michaela Tiedemann

Michaela Tiedemann ist seit den jungen Startup Tagen der Alexander Thamm GmbH mit im Team. Sie hat die Entwicklung vom schnelllebigen, spontanen Startup hin zum erfolgreichen Unternehmen aktiv mitgestaltet. Mit der Gründung einer eigenen Familie begann für Michaela Tiedemann dann parallel dazu ein ganz neues Kapitel. Den Job an den Nagel zu hängen, kam für die frisch gebackene Mutter aber nicht in Frage. Stattdessen entwickelte sie eine Strategie, wie sie ihre Stelle als Chief Marketing Officer mit ihrer Rolle als Mutter in Einklang bringen kann.

0 Kommentare

Einen Kommentar abschicken

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert