Data Engineering – Grundlagen, Aufgaben und Bedeutung

Data Engineering in Data-Science-Projekten

Data Engineering ist ein Teilbereich von Data-Science-Projekten, dessen wahre Relevanz erst in den letzten Jahren erkannt wurde. Besonders wenn es um das Produktivsetzen von Data Science Use Cases geht, spielt Data Engineering eine Schlüsselrolle. In diesem Grundlagen-Artikel finden Sie relevante Informationen zum Thema Data Engineering.

Data-Science-Projekte sind das Ergebnis von Teamarbeit. Im Gegensatz zu klassischen IT-Aufgaben, die eindeutig in der IT-Abteilung verortet sind, gibt es die eine Data-Science-Abteilung oder den einen Data Scientist nicht. Vielmehr sind Mitarbeiter aus ganz unterschiedlichen Fachgebieten notwendig, die gemeinsam für das Gelingen eines Datenprojektes verantwortlich sind. Einer der zentralen Teilbereiche eines jeden Data-Science-Projektes ist Data Engineering.

Linktipp: In unsere Blog-Artikel über Data Roles können Sie sich einen Überblick über die wichtigsten Rollen in Data-Science-Projekten verschaffen.

Die Grundaufgaben von Data Engineering: Sammeln, Aufbereiten und Validieren von Daten

Im Gegensatz zu anderen Berufen aus diesem Umfeld wie beispielsweise dem Data Scientist, wird dem Data Engineer nicht im gleichen Maße Aufmerksamkeit oder Ruhm geschenkt. Dennoch sind auch Data Engineers rar gesät und werden immer mehr gebraucht. Denn ohne Data Engineering fehlt eine wichtige Grundlage für Analyseprojekte: das Handling von Daten.

Data Engineering befasst sich mit dem Sammeln, Aufbereiten und Validieren von Daten und stellt sicher, dass die Infrastruktur und die Anwendungen vorhanden sind, die zur Analyse benötigt werden.

#DataEngineering wird in Unternehmen immer wichtiger – speziell im Kontext von #DataScienceProjekten und #BigData ist Data Engineering sogar unverzichtbar. Klick um zu Tweeten

Was ist Data Engineering genau?

Der zentrale Arbeitsbereich von Data Engineering sind Datenbanken, Data Warehouses und Data Lakes. Die Hauptaufgabe des Data Engieneers ist in anderen Worten, das Bereitstellen von Daten. Beim Data Engineering geht es darum, Datenbanken zu modellieren, zu skalieren und so den Datenfluss sicherzustellen. Data Engineering kann damit folgende Teilbereiche umfassen:

  • Konzeption und Bereitstellung der Systemarchitektur
  • Programmierung von spezifischen Anwendungen
  • Datenbankdesign und –konfiguration
  • Konfiguration von Schnittstellen und Sensoren

Oft zählt zum Aufgabenbereich des Data Engineers auch die Wartung und Administration der IT-Infrastruktur, auch wenn dies nicht zu seinen Kernaufgaben zählt. Oft entscheidet die Größe und das Budget des jeweiligen Unternehmens, ob es hier eigene Verantwortliche gibt oder nicht. Zumindest von der fachlichen Ausbildung her kann ein Data Engineer diese Aufgaben jedoch teilweise oder ganz übernehmen.

Linktipp: Data Engineering befasst sich neben der Systemarchitektur ganz zentral mit Data Pipelines – ein Konzept, das wir hier näher beschreiben.

Im Bereich Data Engineering wird eine ganze Bandbreite von Tools und Technologien genutzt

Es gibt eine große Vielfalt von Tools und Technologien, die zum Data Engineering bereitstehen. Das bekannteste Tool in diesem Zusammenhang ist Hadoop – eine Open-Source-Software-Lösung der Apache Software Foundation. Hadoop hat inzwischen zahlreiche Neuerungen, Erweiterungen und Konkurrenten aus dem eigenen Hause. Um nur die wichtigsten zu nennen: Spark, Cassandra, Kafka oder Tomcat. Daneben gibt es zahlreiche weitere Anbieter von Datenbanken und Systemen wie: MongoDB, cloudera, Oracle, Microsoft SQL Server, pentaho oder talend.

Big Data Landscape 2018

Die Big-Data-Landscape für 2018 zeigt, wie umfangreich die Lösungen inzwischen geworden sind. (Quelle: Matt Turck)

Um die richtigen Tools für die richtige Aufgabe auswählen und einrichten zu können, sind Kenntnisse und ein tiefgreifendes Verständnis von Datenmodellen sowie relationalem und nicht-relationalem Datenbankdesign notwendig. Vor allem im Big-Data-Umfeld wird immer deutlicher, dass Data Engineering an Bedeutung gewinnt, weil hier die Möglichkeiten der klassischen IT an ihre Grenzen stoßen.

Cloud-Lösungen entwickeln sich zum Standard im Bereich Data Engineering

Immer mehr Unternehmen setzen im Rahmen ihrer Data-Science-Projekte auf Cloud-Lösungen. Das Thema Cloud wird aus unterschiedlichen Gründen immer wichtiger. Vor allem die Aspekte Sicherheit, Zugriffsgeschwindigkeit, Skalierbarkeit und ökonomische Erwägungen sprechen für die Cloud.

Das Einrichten und die Konfiguration der Cloud ist ein wichtiger Aufgabenbereich von Data Engineering. Allein aus diesem Grund wird es für Unternehmen immer wichtiger, beim Recruiting auch den Beruf des Data Engineers im Auge zu behalten.

Linktipp: In unserem Blog-Artikel über den Data Engineer als Beruf haben wir auch eine Übersicht über Ausbildungsmöglichkeiten aufgelistet.

So unterscheiden sich Data Engineering und Data Science

Es ist nicht nur so, dass es eine enge Zusammenarbeit zwischen den Bereichen Data Science und Data Engineering geben muss. Zum Teil können sich die Arbeitsbereiche auch inhaltlich überschneiden. Schon allein deswegen ist es wichtig, dass in einem Team eine ausgeprägte, gut funktionierende Kommunikationskultur gibt. Es gibt aber auch wesentliche Unterschiede zwischen den Bereichen Data Engineering und Data Science.

Ein Unterschied besteht darin, dass der Fokus des Data Scientist auf der Datenanalyse und Exploration der Daten mit Hilfe von mathematischen und statistischen Modellen und Verfahren liegt, während sich der Data Engineer mit den Software-, Hardware– und DatenbankArchitekturen beschäftigt, die dies ermöglichen. Data Engineering umfasst dabei die Aspekte:

  1. Datensicherheit,
  2. Datenschutz (DSGVO),
  3. Datenqualität und
  4. IT-Sicherheit.

Data Engineering Ausbildungsmöglichkeiten

Da die Nachfrage im Bereich Data Engineering in den letzten Jahren rasant gestiegen ist, stellt sich die wichtige Frage: Wie wird man Data Engineer? In den meisten Fällen kommen Data Engineers aus den Bereichen Informatik, Wirtschaftsinformatik und Computer-Technik. Das schließt aber nicht aus, dass jemand mit einer statistischen Grundausbildung, der zugleich erste Erfahrungen im Bereich Engineering hat, sich später im Bereich Data Engineering spezialisiert.

Neben den persönlichen Präferenzen hängt diese Entscheidung auch stark vom jeweiligen Unternehmen ab, in dem jemand Karriere machen möchte, beziehungsweise von den konkreten Data-Science-Projekten – kurz gesagt: Learning on the Job. Die Rahmenbedingungen bestimmen also stark mit, welche Spezialisierung oder welche genauen Kenntnisse relevant sind und erlernt werden müssen.

Die Nachfrage im Bereich #DataEngineering steigt immer mehr an. Darum stellt sich immer häufiger die Frage: Wie wird man eigentlich #DataEngineer? Klick um zu Tweeten

Unser Data Engineering Trainee Programm

Da wir selbst in unseren Projekten immer öfter feststellen können, wie wichtig die Rolle von Data Engineering für den Projekterfolg ist, haben wir ein Data Engineering Trainee Programm ins Leben gerufen. Dabei handelt es sich um ein 12-monatiges Programm, bei dem die wichtigsten Aspekte des Berufsfeldes vermittelt werden. Wichtig ist uns ein ausgewogenes Verhältnis von Theorie und Praxis, da dies auch den späteren Berufsalltag prägen wird. Denn durch die Vielzahl an Tools und Technologien ist die Aneignung von neuem Wissen und neuen Fähigkeiten eine Konstante des Arbeitsalltags.

Interesse an unserem Data Engineering Trainee Programm? Erfahre hier alles über Voraussetzungen und den genauen Ablauf.

Mehr zum Data Engineering Trainee Programm

Tags

top