Data Engineering ist ein Teilbereich von Data-Science-Projekten, dessen wahre Relevanz erst in den letzten Jahren erkannt wurde. Besonders wenn es um das Produktivsetzen von Data Science Use Cases geht, spielt Data Engineering eine Schlüsselrolle. In diesem Grundlagen-Artikel finden Sie relevante Informationen zum Thema Data Engineering.
Data-Science-Projekte sind das Ergebnis von Teamarbeit. Im Gegensatz zu klassischen IT-Aufgaben, die eindeutig in der IT-Abteilung verortet sind, gibt es die eine Data-Science-Abteilung oder den einen Data Scientist nicht. Vielmehr sind Mitarbeiter aus ganz unterschiedlichen Fachgebieten notwendig, die gemeinsam für das Gelingen eines Datenprojektes verantwortlich sind. Einer der zentralen Teilbereiche eines jeden Data-Science-Projektes ist Data Engineering.
Im Gegensatz zu anderen Berufen aus diesem Umfeld wie beispielsweise dem Data Scientist, wird dem Data Engineer nicht im gleichen Maße Aufmerksamkeit oder Ruhm geschenkt. Dennoch sind auch Data Engineers rar gesät und werden immer mehr gebraucht. Denn ohne Data Engineering fehlt eine wichtige Grundlage für Analyseprojekte: das Handling von Daten.
Data Engineering befasst sich mit dem Sammeln, Aufbereiten und Validieren von Daten und stellt sicher, dass die Infrastruktur und die Anwendungen vorhanden sind, die zur Analyse benötigt werden.
Der zentrale Arbeitsbereich von Data Engineering sind Datenbanken, Data Warehouses und Data Lakes. Die Hauptaufgabe des Data Engieneers ist in anderen Worten, das Bereitstellen von Daten. Bei Data Engineering Services geht es darum, Datenbanken zu modellieren, zu skalieren und so den Datenfluss sicherzustellen. Data Engineering kann damit folgende Teilbereiche umfassen:
Oft zählt zum Aufgabenbereich des Data Engineers auch die Wartung und Administration der IT-Infrastruktur, auch wenn dies nicht zu seinen Kernaufgaben zählt. Oft entscheidet die Größe und das Budget des jeweiligen Unternehmens, ob es hier eigene Verantwortliche gibt oder nicht. Zumindest von der fachlichen Ausbildung her kann ein Data Engineer diese Aufgaben jedoch teilweise oder ganz übernehmen.
Linktipp: Data Engineering befasst sich neben der Systemarchitektur ganz zentral mit Data Pipelines – ein Konzept, das wir hier näher beschreiben.
Es gibt eine große Vielfalt von Tools und Technologien, die zum Data Engineering bereitstehen. Das bekannteste Tool in diesem Zusammenhang ist Hadoop – eine Open-Source-Software-Lösung der Apache Software Foundation. Hadoop hat inzwischen zahlreiche Neuerungen, Erweiterungen und Konkurrenten aus dem eigenen Hause. Um nur die wichtigsten zu nennen: Spark, Cassandra, Kafka oder Tomcat. Daneben gibt es zahlreiche weitere Anbieter von Datenbanken und Systemen wie: MongoDB, cloudera, Oracle, Microsoft SQL Server, pentaho oder talend.
Die Big-Data-Landscape für 2018 zeigt, wie umfangreich die Lösungen inzwischen geworden sind. (Quelle: Matt Turck)
Um die richtigen Tools für die richtige Aufgabe auswählen und einrichten zu können, sind Kenntnisse und ein tiefgreifendes Verständnis von Datenmodellen sowie relationalem und nicht-relationalem Datenbankdesign notwendig. Vor allem im Big-Data-Umfeld wird immer deutlicher, dass Data Engineering an Bedeutung gewinnt, weil hier die Möglichkeiten der klassischen IT an ihre Grenzen stoßen.
Immer mehr Unternehmen setzen im Rahmen ihrer Data-Science-Projekte auf Cloud-Lösungen. Das Thema Cloud wird aus unterschiedlichen Gründen immer wichtiger. Vor allem die Aspekte Sicherheit, Zugriffsgeschwindigkeit, Skalierbarkeit und ökonomische Erwägungen sprechen für Cloud Computing.
Das Einrichten und die Konfiguration der Cloud ist ein wichtiger Aufgabenbereich von Data Engineering. Allein aus diesem Grund wird es für Unternehmen immer wichtiger, beim Recruiting auch den Beruf des Data Engineers im Auge zu behalten.
Es ist nicht nur so, dass es eine enge Zusammenarbeit zwischen den Bereichen Data Science und Data Engineering geben muss. Zum Teil können sich die Arbeitsbereiche auch inhaltlich überschneiden. Schon allein deswegen ist es wichtig, dass in einem Team eine ausgeprägte, gut funktionierende Kommunikationskultur gibt. Es gibt aber auch wesentliche Unterschiede zwischen den Bereichen Data Engineering und Data Science.
Ein Unterschied besteht darin, dass der Fokus des Data Scientists auf der Datenanalyse und Exploration der Daten mithilfe von mathematischen und statistischen Modellen und Verfahren liegt, während sich der Data Engineer mit den Software-, Hardware– und Datenbank–Architekturen beschäftigt, die dies ermöglichen. Data Engineering umfasst dabei die Aspekte:
Da die Nachfrage im Bereich Data Engineering in den letzten Jahren rasant gestiegen ist, stellt sich die wichtige Frage: Wie wird man DataEngineer? In den meisten Fällen kommen Data Engineers aus den Bereichen Informatik, Wirtschaftsinformatik und Computer-Technik. Das schließt aber nicht aus, dass jemand mit einer statistischenGrundausbildung, der zugleich erste Erfahrungen im Bereich Engineering hat, sich später im Bereich Data Engineering spezialisiert.
Neben den persönlichen Präferenzen hängt diese Entscheidung auch stark vom jeweiligen Unternehmen ab, in dem jemand Karriere machen möchte, beziehungsweise von den konkreten Data-Science-Projekten – kurz gesagt: Learning on the Job. Die Rahmenbedingungen bestimmen also stark mit, welche Spezialisierung oder welche genauen Kenntnisse relevant sind und erlernt werden müssen.
Cookie Freigabe
Diese Website verwendet notwendige Cookies zur Sicherstellung des Betriebs der Website. Eine Analyse des Nutzerverhaltens durch Dritte findet nicht statt. Detaillierte Informationen über den Einsatz von Cookies finden Sie in unseren Datenschutzerklärung.
Individuelle Cookie Einstellungen
Datenschutzeinstellungen
Hier finden Sie eine Übersicht über alle verwendeten Cookies. Sie können Ihre Zustimmung zu ganzen Kategorien geben oder sich weitere Informationen anzeigen lassen und so nur bestimmte Cookies auswählen.
Notwendige Cookies
Diese Cookies ermöglichen grundlegende Funktionen und sind für die einwandfreie Funktion der Website erforderlich.
Cookie Informationen anzeigen
Cookie Informationen verbergen
Hubspot CMS
HubSpot CMS ist ein Content-Management-System, das verschiedene Cookies zur Verfolgung von Besucherinteraktionen verwendet.
Anbieter: | HubSpot, Inc., 25 First Street, Cambridge, MA 02141, USA |
Cookiename: | __hstc; hubspotutk; __hssc; __hssrc; __cf_bm; __cfruid |
Laufzeit: | 6 Monate; 6 Monate; 30 Minuten; Sitzungsende; 30 Minuten; Sitzungsende |
Datenschutzlink: | https://legal.hubspot.com/de/privacy-policy |
Host: | .hubspot.com |
Matomo Analytics
Matomo ist eine Open-Source-Webanalyselösung, die Datenschutz und Datenhoheit betont und statistische Nutzer-Informationen festhält.
Anbieter: | InnoCraft Ltd., 150 Willis St, 6011 Wellington, New Zealand |
Cookiename: | _pk_id..; _pk_ses.. |
Laufzeit: | 13 Monate; 30 Minuten |
Datenschutzlink: | https://matomo.org/gdpr-analytics/ |
Host: | .matomo.cloud |
Cookies für Externe Inhalte
Inhalte von Videoplattformen und Social Media Plattformen werden standardmäßig blockiert. Wenn Cookies von externen Medien akzeptiert werden, bedarf der Zugriff auf diese Inhalte keiner manuellen Zustimmung mehr.
Cookie Informationen anzeigen
Cookie Informationen verbergen
YouTube
YouTube setzt verschiedene Cookies zur Verwaltung von Benutzereinstellungen und zur Verfolgung von Nutzerinteraktionen. Und wird verwendet, um YouTube-Inhalte freizuschalten.
Anbieter: | Google Ireland Limited, Gordon House, Barrow Street, Dublin 4, Ireland |
Cookiename: | YSC; VISITOR_INFO1_LIVE; PREF |
Laufzeit: | Sitzungsende; 6 Monate; 8 Monate |
Datenschutzlink: | https://policies.google.com/privacy?hl=de |
Host: | .youtube.com |
Podigee
Podigee ist ein Podcast-Hosting-Dienst, der Cookies für die Freischaltung von Inhalten gesetzt.
Anbieter: | Podigee GmbH, Revaler Straße 28, 10245 Berlin, Deutschland |
Cookiename: | Nicht spezifiziert |
Laufzeit: | Nicht spezifiziert |
Datenschutzlink: | https://www.podigee.com/de/ueber-uns/datenschutz/ |
Host: | .podigee.com |
Google Maps
Dient zum Entsperren von Google Maps-Inhalten. Google Maps verwendet Cookies, um Benutzerpräferenzen zu speichern und die Nutzung zu erleichtern.
Anbieter: | Google Ireland Limited, Gordon House, Barrow Street, Dublin 4, Irland |
Cookiename: | SID; HSID; NID |
Laufzeit: | 2 Jahre; 2 Jahre; 6 Monate |
Datenschutzlink: | https://policies.google.com/privacy?hl=de |
Host: | .google.com |
Ihre Cookie-Einstellungen erlauben keine externen Inhalte von Google Maps.
Ihre Cookie-Einstellungen erlauben keine externen Inhalte von Matomo Analytics.