Daten durchdringen heute nahezu jeden Geschäftsprozess. In den vergangenen Jahren haben Unternehmen zunehmend Datenprodukte in Data-Science-Projekten pilotiert. Trotzdem gelingt es in vielen Fällen nicht, diese in den produktiven Einsatz zu bringen und somit Daten langfristig gewinnbringend einzusetzen. Worin genau besteht eigentlich die Schwierigkeit, wenn es darum geht, Mehrwert aus Daten zu generieren?
Die Gründe dafür sind vielfältig und in vielen Fällen ist nicht nur ein Grund für das Scheitern verantwortlich. Probleme beginnen häufig schon bei den zugrundeliegenden Daten, betreffen die Skills und das Know-how der Mitarbeiter und führen schließlich zu technologischen Schwierigkeiten. Wir haben die 5 häufigsten Gründe genauer untersucht, die dazu führen, dass es im Rahmen von Data-Science-Projekten nicht gelingt, Mehrwert aus Daten zu generieren.
Inhaltsverzeichnis
1) Die Daten selbst.
Wenn es ganz konkret darum geht, Datenprojekte zu initiieren, ist die Sicherstellung einer hohen Datenqualität einer der zentralen Schlüssel zum Projekterfolg. Eine Faustregel unter Daten Experten lautet, dass 60-80 Prozent der Zeit in einem Data-Science-Projekt für die Aufbereitung der Rohdaten aufgewandt werden muss. Die Daten aus den Quellsystemen müssen vor den späteren Datenanalysen zunächst bereinigt, angereichert und vorverarbeitet werden.
Mittels dieser manuellen Aufbereitungsschritte lassen sich im Rahmen eines Prototyp-Projektes tieferliegende Datenqualitätsprobleme häufig kaschieren. Im produktiven Betrieb ist dies oft mit unverhältnismäßig hohen Aufwänden verbunden. Selbst wenn Daten in einer hohen Datenqualität vorliegen, kann es Schwierigkeiten bei Zugriffsrechten, Eigentumsrechten oder bei der Datenhoheit geben. Nicht selten sind damit langwierige und zum Teil stark formalisierte Genehmigungsprozesse verbunden. Manchmal bedeutet dies nur eine Verzögerung im Ablauf von Data-Science-Projekten. In manchen Fällen kann dies aber auch zum Scheitern eines Projektes führen.
Linktipp: In unserem Blog-Artikel über Datenqualität, haben wir die 5 wichtigsten Maßnahmen zusammengestellt.
Mangelnde Datenqualität deutet oft darauf hin, dass in traditionellen Unternehmen Data Science zu dem Zeitpunkt, als die Datengenerierungsprozesse selbst entworfen und eingerichtet wurden, keine Rolle spielte. Oft wurden Daten ursprünglich zu anderen Zwecken gesammelt als zur Schaffung von Mehrwert durch Datenanalysen.
2) Mangelnde Erfahrung mit datengestützten Produkten und Prozessen
Der zweite Grund, der uns immer wieder begegnet, ist die allgegenwärtige Unsicherheit über Datenschutz und Datensicherheit, die unter anderem, aber nicht ausschließlich, im Zuge der DSGVO entstanden ist. Der Haken bei den neuen Regelungen ist, dass die meisten von ihnen zunächst ignoriert oder bis zum Proof of Concept vorübergehend außer Acht gelassen werden können. Zum Beispiel werden Schwierigkeiten beim Datenzugriff durch die Arbeit mit Abzügen aus den Quellsystemen umgangen. Diese Strategie ist völlig in Ordnung, wenn ein Plan für den automatisierten Zugriff existiert. Das Vorgehen kann aber auch zu schwerwiegenden Problemen bei der Produktivsetzung führen, sollte es diesen Plan nicht geben.
3) Der menschliche Faktor
Wie in den meisten anderen Bereichen des Wirtschaftslebens geht es bei Data-Science-Projekten nicht primär um Daten, Algorithmen oder Technologien, sondern um Menschen. Wir haben vielversprechende Proof of Concepts gesehen, die nur deswegen stagnierten, weil sie nicht die nötige Aufmerksamkeit und Unterstützung aus der Managementebene erhielten. Ein Teil des Problems besteht darin, dass viele Organisationen keine klare strategische Ausrichtung für ihre Data-Science-Aktivitäten haben (Data Strategy).
Das macht es für Data-Science-Teams schwierig, ihre Projekte an der Gesamtstrategie des Unternehmens und an dessen Hauptwerttreibern zu orientieren. Darüber hinaus steckt das Verständnis für Data-Science-Themen in vielen traditionellen Unternehmen noch in den Kinderschuhen. Insofern ist es wenig überraschend, dass es inmitten des aktuellen Hypes um künstliche Intelligenz und Machine Learning manchmal schwierig ist, den Blick für das Wesentliche zu behalten.
Neben einem Grundverständnis und einer Wertschätzung für Data Science sind heute vor allem Experten mit komplementären Fähigkeiten erforderlich. Multidisziplinäre Teams sind eine wichtige Voraussetzung, um Data-Science-Projekte erfolgreich durchzuführen. Eine für die Entwicklung erfolgreicher Datenprodukte besonders wichtige Rolle ist die des Data Engineer. Bislang wird dessen Kombination aus Daten- und Softwareentwicklungs-Know-How häufig noch viel zu wenig Aufmerksamkeit geschenkt.
4) Organisatorische Hürden
Die digitale Transformation hat tiefgreifende Auswirkungen auf die Art und Weise, wie traditionelle Organisationen heute operieren. Insbesondere die Rolle der IT-Abteilungen verändert sich grundlegend. Viele Unternehmen stellen gerade fest, was dieser Transformationsprozess für ihre Organisationsstruktur, Geschäftsprozesse und die Zusammenarbeit bedeutet. Angetrieben vom populären Narrativ über die Notwendigkeit einer „IT der zwei Geschwindigkeiten“ breiteten sich in den letzten fünf Jahren Innovations- und Data-Science-Labs quer über alle Branchen aus. Die zugrundeliegende Idee war, eine separate Infrastruktur für schnelle, agile Digitalprojekte und Innovationen zu schaffen.
Viele Unternehmen stellten jedoch fest, dass diese Struktur einer Trennung zwischen „traditioneller IT“ und Innovationslabor enorme Reibungen verursacht. Dies führte dazu, dass der Einsatz von Data Science in vielen Fällen aufgrund der organisatorischen Kluft nicht tief genug in die Geschäftsprozesse verankert werden konnte. Unternehmen müssen daher Brücken schlagen zwischen Fachabteilungen, Data Science und IT, um langfristig Mehrwert aus Daten schaffen zu können.
5) Technologische Grenzen
Um es zunächst klarzustellen: Die Technologie selbst ist nie die eigentliche Ursache eines Problems. Die rasante technologische Entwicklung rund um Big Data und Machine Learning kann jedoch durchaus eine Herausforderung darstellen. Mit der Fülle an Tools – die von solchen für die Dateninfrastruktur über Open-Source-Software für maschinelles Lernen bis hin zu zweckspezifischen Unternehmensanwendungen reicht – lässt sich jede beliebige Datenaufgabe lösen.
Die Geschwindigkeit der Entwicklung führt aber zu zwei zentralen Herausforderungen. –
- Traditionell arbeiten viele IT-Abteilungen mit einem bewährten Set von Standard- Technologien. Da der Takt der Neuerungen im Open-Source-Bereich inzwischen rapide zugenommen hat, muss sich die IT schneller anpassen als je zuvor.
- Auch bei den eingesetzten Technologien besteht häufig eine Diskrepanz zwischen der Phase der Entwicklung eines Data-Science-Projekts und der Phase der dauerhaften Inbetriebnahme. Data Scientists schätzen Skriptsprachen wie Python oder R. Wenn es aber um Geschwindigkeit, Leistungsfähigkeit, große Datenmengen und Stabilität geht, werden bevorzugt kompilierte Programmiersprachen wie C++ oder Java eingesetzt. Während die Technologielandschaft natürlich auch für diese Herausforderung Antworten bietet, müssen Standardvorgehensweisen zur technischen Überführung von Data-Science-Prototypen in den Betrieb noch etabliert werden.
Mehrwert aus Daten schaffen
Dies sind die 5 Hauptgründe, warum es bei vielen Data Science-Projekten schwierig ist, einen Mehrwert aus Daten zu generieren. Damit haben Unternehmen und Organisationen aber auch 5 Ansatzpunkte, um die Voraussetzungen für den Erfolg von Datenprojekten zu schaffen:
- Data Governance: Prozesse und Verantwortlichkeiten zur Sicherstellung der Datenqualität, Klarheit über Datenzugriff und Rechtssicherheit über deren Verwendung erleichtern sowohl die Prototypenentwicklung als auch die Inbetriebnahme
- Data Skills: Durch die Kombination aus grundlegendem Datenverständnis in der gesamten Organisation und interdisziplinären Expertenteams lässt sich Data Science tief in den Geschäftsprozessen verankern
- Data Roles: Neben Data Scientists und Engineers liefern Datenstrategen und Datenproduktmanager entscheidende Beiträge zum Erfolg von Data-Science-Projekten
- Data-driven Company: Die Aufhebung der organisatorischen Trennung und eine gemeinsame Datenstrategie erleichtert die Zusammenarbeit zwischen Fachabteilungen, Data-Science-Teams und IT-Abteilung
- Data Lake: Ein zentraler, für alle zugänglicher Anlaufpunkt für Daten und eine moderne IT-Architektur können der Unterschied zwischen einem vielversprechendem Proof of Concept und einem produktiven Datenprodukt sein
Durch zielgerichtete Maßnahmen entlang dieser 5 Dimensionen schaffen Unternehmen nicht nur die Grundlagen für einzelne Data-Science-Projekte. Sie bereiten sich auch strukturell auf das anbrechende Datenzeitalter vor und stellen sicher, dass sie in Zukunft die Fähigkeit haben, Mehrwert aus Daten zu generieren.
Sie möchten mehr über die erfolgreiche Produktivesetzung von Data Products erfahren? Laden Sie unser kostenloses Whitepaper „7 Best Practices for Deploying your Data Products“ herunter.
0 Kommentare