Grundlagen, Anwendungsfälle und Vorzüge eines Data Lake: Alles was Unternehmen über Data Lakes wissen müssen.

Ein sinnbildlicher Data Lake. Ein Data Lake lässt sich am besten wie eine überdimensionale Festplatte vorstellen.

Im Schnitt erzeugt heute jeder Mensch pro Tag schon 600-700 Megabyte an Daten – im Beruf oder privat. Große Mengen an Daten fallen insbesondere im Bereich Industrie 4.0 an. Sensoren, die Werte über ihre Umgebung liefern oder Daten, die in vernetzte IoT-Geräten Daten über deren Zustand aufzeichnen, sind nur zwei von unzähligen Datenquellen, die heute in Unternehmen zu einer wahren Informationsflut führen. Da kommt der Data Lake ins Spiel.

Die entscheidende Frage angesichts der Datenströme ist: Wie kann aus den enormen Datenmengen ein Mehrwert gezogen werden? Bei der Lösung dieses Problems spielt der Data Lake eine Schlüsselrolle. Ein Data Lake bietet die Möglichkeit extrem viele und vielfältige Daten zu speichern und diese gleichzeitig effektiv für Datenauswertungen (Big Data Analytics) bereitzustellen.

Was ist ein Data Lake? Ein Data Lake (wortwörtlich: „Datensee“) lässt sich am besten wie eine überdimensionale Festplatte vorstellen. Anstatt Daten in Ordnern verteilt an unterschiedlichen Orten zu speichern, versammelt ein Data Lake alle Daten an einem Ort. Um in der Metapher zu bleiben, handelt es sich dabei um einen Speicher, der wie ein See viele Quellen und Zuströme hat. Der Begriff selbst geht auf James Dixon, Gründer und CTO von Pentaho zurück. Er definierte den Data Lake folgendermaßen:

„If you think of a datamart as a store of bottled water – cleansed and packaged and structured for easy consumption – the data lake is a large body of water in a more natural state. The contents of the data lake stream in from a source to fill the lake, and various users of the lake can come to examine, dive in, or take samples.“

In einem Unternehmen bedeutet das konkret, dass beispielsweise nicht jede einzelne Abteilung ihre eigene Datensammlung anlegt und auswertet, sondern dass es einen gemeinsamen Ort gibt, an dem alle Daten gespeichert werden. Dort werden auch Daten aus externen Datenquellen (Marktdaten, Wetterdaten, Social-Media-Daten etc.), die mit ausgewertet werden sollen, abgelegt. Ein Data Lake ist aber mehr als einfach nur ein einziger großer Speicherort für alle Daten in einem Unternehmen.

Ein #DataLake ist wie eine überdimensionierte Festplatte, auf der alles an einem Ort gespeichert wird – dadurch kann ein Data Lake aber Enormes leisten. Klick um zu Tweeten

Data Lake vs. Data Warehouse

Die beiden Begriffe Data Lake und Data Warehouse werden oft zusammen gebraucht. Immer wieder wird auch behauptet, dass der Data Lake nur eine Neuauflage des Data Warehouses wäre. Allerdings gibt es im Grunde nur eine Gemeinsamkeit zwischen den beiden Datenaufbewahrungsformen: Beide Systeme dienen der Datenspeicherung.

Linktipp: Ganz egal, wo Daten gespeichert werden, wichtig für Datenanalysen ist immer eine hohe Datenqualität – lesen Sie hier, wie sich diese gewährleisten lässt.

Im Vergleich zu anderen Formen der Datenspeicherung wie relationalen Datenbanken oder einem Data Warehouse werden Daten, die in einem Data Lake abgelegt werden, vorab nicht speziell aufbereitet. Vielmehr landen sie dort als Rohdaten beziehungsweise als unstrukturierte Daten.

Gegenüberstellung der zentralen Eigenschaften von Data Warehouses und Data Lakes

Gegenüberstellung der zentralen Eigenschaften von Data Warehouses und Data Lakes

Der wesentliche Unterschied zeigt sich in der Praxis. Ein Data Lake ist eine zentral katalogisierte Zusammenfassung von verteilt organisierten Datensätzen. Der entscheidende Vorteil: Große Datenmengen können unabhängig von der konkreten Verwendung im Einzelfall in ihrem Ursprungsformat gespeichert werden. Ein Data Warehouse speichert ausschließlich präparierte und strukturiert organisierte Datensätze zur direkten Verwertung für Geschäftsinformationsdienste.

Strukturierte vs. unstrukturierten Daten

Unstrukturierte Daten haben im Gegensatz zu strukturierten kein vorgegebenes Format und auch sonst keine formalisierte Struktur. Beispiele von unstrukturierten Daten, die vor ihrer Auswertung aufbereitet werden müssen sind Textdaten (wie E-Mails, Kundenbewertungen, Forenbeiträge etc.) oder Bilddaten, die beispielsweise bei der Fertigung zur Sicherstellung der Produktionsqualität entstehen können.

Ein Data Lake ist also weit weniger restriktiv, wenn es um die Speicherung von Daten geht und bietet darum eine größere Flexibilität. In diesem können permanent alle verfügbaren Datenströme hineinfließen: Click-Streams, Protokoll-Dateien, Bilder, Textdaten, Sensordaten, öffentlich verfügbare Daten wie Social-Media-Posts etc. Anstatt nur vorab definierte Korrelationen zu analysieren bringt diese Fülle an Daten die Voraussetzung für Advanced Analytics.

Die Vorteile eines #DataLake: Flexibilität, Agilität und alle Voraussetzungen für #AdvancedAnalytics Klick um zu Tweeten

Der grundsätzliche Aufbau eines Data Lakes

In vielen Fällen beruht ein Data Lake auf einem „Hadoop-Cluster“ beziehungsweise einem „Hadoop Distributed File System“, kurz HDFS. Ein HDFS besteht in der Regel aus handelsüblicher Hardware. Das macht ihn besonders kostengünstig, da

  1. handelsübliche Hardware kostengünstig ist und
  2. die darauf verwendete Software und die Erweiterungen Open Source

Ein weiterer Vorteil eines auf Hadoop basierenden Frameworks: Es kann beliebig viele Datenformate und sehr große Mengen aufnehmen. Zu einem Data Lake gehören aber noch zahlreiche weitere Komponenten. Für die Nutzer von Data Lakes besonders wichtig sind die leicht verständlichen User Interfaces. Tools wie Dashboards oder interaktive Datenvisualisierungen sorgen für den richtigen Überblick. Sie sind die Voraussetzung dafür, dass die Datenanalysen tatsächlich in Handlungen überführt werden.

Der grundsätzliche Aufbau eines Data Lakes gliedert sich in drei Ebenen: Der Datenakquisition, der Datenaufbereitung und dem Datenzugriff.

Der grundsätzliche Aufbau eines Data Lakes gliedert sich in drei Ebenen: Der Datenakquisition, der Datenaufbereitung und dem Datenzugriff.

Lesetipp: Lesen Sie in diesem Artikel mehr über Datenvisualisierungen und die Macht des Visuellen.

Was ist der Nutzen eines Data Lakes?

Ein Data Lake dient also ganz allgemein als großes Datenlager (Repository) und ist damit zugleich eine Daten-Management-Plattform. Die Anlage eines Data Lake stellt darum auch eine ideale Möglichkeit dar, um „Datensilos“, „Datenfriedhöfe“ oder „Datensümpfe“ aufzulösen beziehungsweise zu vermeiden.

Ein gemeinsamer Aufbewahrungsort bringt zudem einen weiteren zentralen Vorteil mit sich. Indem vielfältige Daten unterschiedlichsten Ursprungs leicht und schnell zugänglich gemacht werden, sind latente Zusammenhänge erkennbar, die sonst vielleicht verborgen bleiben. Angenommen es gibt eine Häufung an Beschwerden im Service zu einem bestimmten Produkt oder einer bestimmten Funktion, so kann dies bei einer Auswertung in der Qualitätssicherung oder direkt in der Produktion sichtbar werden.

Darüber hinaus spielt ein Data Lakes eine zentrale Rolle im Rahmen einer agilen Datenstrategie. Unternehmen, die sehr schnell auf bestimmte Daten zugreifen wollen, finden im Data Lake eine Architektur, die ihren Bedürfnissen gerecht wird. Neben der Geschwindigkeit zeichnet sich ein Data Lake dadurch aus, dass sich insbesondere hochspezialisierte und komplexe Fragestellungen schnell beantworten lassen. Aufgrund dieser Möglichkeiten, die ein Data Lake bietet, können Daten zu einem wichtigen Produktionsfaktor in Unternehmen werden.

Unsere Dienstleistungen

Im Laufe der über 500 Data-Science- und Big-Data-Projekte, die wir erfolgreich durchgeführt haben, haben wir zahlreiche Erfahrungen mit Data Lakes sammeln können. Auf Basis dieser umfangreichen Erfahrung bieten wir kundenorientierte, strategische Beratungen zu den Vorteilen eines Data Lake gegenüber Data Warehouses an. Wir bieten zudem Unterstützung bei der Auswahl geeigneter Softwareframeworks sowie Projektmanagement für die technische Implementierung eines Data Lake.

Dazu bieten wir unseren Kunden Workshops zur Erarbeitung einer jeweils individuellen Strategien zur Datenspeicherung. Zusätzlich begleiten wir auf Wunsch unsere Kunden bei der Implementierung eines Data Lakes. Die in einem Data Lake gesammelten Datenmengen ermöglichen es unseren Kunden nicht nur ihre aktuellen Datenprojekten zu verbessern, sondern auch optimal für zukünftige Entwicklungen gerüstet zu sein.

Haben wir Ihr Interesse geweckt? Starten Sie jetzt Ihre Data Journey und erfahren Sie mehr über Data Lakes in Unternehmen.

Data Journey

Tags

top