Vom Prototyp zum Data Product: Mit diesen 3 Best Practices gelingt die Produktivsetzung

von | 21. März 2019 | Grundlagen

Von der Idee – z.B. den Online-Verkauf von Produkten zu erhöhen – bis zum fertigen Data Product – z.B. der Implementierung eines operativen Produktempfehlungssystems  auf der Website – muss ein Data-Science-Projekt zahlreiche Schritte durchlaufen. Derzeit scheitern viele Datenprojekte während der Bereitstellungsphase (Deployment Phase). In diesem Stadium wird das Ergebnis der Prototypenphase in ein operatives Data Product überführt und in die jeweiligen Geschäftsprozesse integriert. Dies ist eine der wichtigsten Phasen des Data-Science-Lebenszyklus, da sich hier entscheidet, ob ein Projekt tatsächlich Mehrwert aus Daten generieren kann. Dabei kann ein Projekt in dieser kritischen Phase an mehreren Herausforderungen scheitern.

Zu diesen Herausforderungen zählen datenbezogene Probleme wie schlechte Datenqualität, datenschutzrechtliche Aspekte oder die fehlende Verfügbarkeit von Daten. Außerdem erschweren fehlende Skills, Hürden in der Zusammenarbeit zwischen Fachabteilung, Data Science und IT sowie eine komplexe Technologielandschaft den entscheidenden Schritt vom Prototypen zum Data Product. Aus unserer Erfahrung aus über 500 Datenprojekten haben wir 3 Best Practices abgeleitet, die zum Gelingen in der Bereitstellungsphase beitragen.

1) Nehmen Sie einen Data Engineer mit an Bord – von Anfang an

In den vergangenen Jahren wurde der Data Scientist als „Sexiest Job of the 21. Century“ gepriesen. Während Data Scientists für den Erfolg eines Data-Science-Projekts unabdingbar sind, ist die Rolle eines Data Engineers gleichermaßen wichtig – und in der Bereitstellungsphase sogar wichtiger.

Dennoch erfährt Data Engineering nicht so viel Aufmerksamkeit wie Data Science. Ein Data Scientist ist typischerweise in der Entwicklungs- und Prototyping-Phase involviert, um beispielsweise Machine Learning Algorithmen und statistische Modelle zu entwickeln. Der eigentliche Engpass vieler Data-Science-Projekte besteht jedoch in der Überführung dieser Modelle in ein stabiles und skalierbares Datenprodukt – einer der Hauptaufgaben eines Data oder Machine Learning Engineers.

Überführung eines Prototypen in ein skalierbares Datenprodukt

Dieser Übergang ist alles andere als trivial: Während der Entwicklungs- und Prototypenphase eines Data-Science-Projekts geht es um die Auswahl des richtigen Lernmodells und schnelles Experimentieren auf dem Weg zum Proof of Concept. Im Gegensatz dazu, wird in der Bereitstellungsphase aus dem Data-Science-Projekt ein Softwareentwicklungsprojekt. Während in einem Data-Science-Projekt viele kleine Änderungen, wie beispielsweise das Korrigieren von Fehlern in den Daten, manuell durchgeführt werden können, ist dies bei einem skalierbaren Data Product unmöglich.

Diesen Herausforderungen in der Bereitstellungsphase kann durch den frühzeitigen Einbezug von Data und Machine Learning Engineers, idealerweise mit Erfahrung in der Softwareentwicklung und -bereitstellung, begegnet werden. Durch eine enge Zusammenarbeit zwischen Scientists und Engineers schon in den frühen Phasen eines Projektes werden unverhältnismäßig hohe technische Schulden vermieden und die Produktivsetzung erleichtert.

2) Setzen Sie auf die Cloud

Die Nutzung der Public Cloud wird nicht nur im Bereich Data Science immer mehr zum Mainstream. Ein prominentes Beispiel dafür ist Netflix, das den Wechsel zu Amazon Web Services (AWS) bereits im Jahr 2016 abgeschlossen hat. Diese Entscheidung halten wir für wegweisend, weil der Trend zur Nutzung von Cloud-Lösungen eine bedeutende Entwicklung für den produktiven Einsatz von Data Science und Machine Learning ist. Der Grund ist einfach: Infrastructure as a Service, sog. IaaS-Lösungen, bieten die Flexibilität, die Data-Science-Projekte von Natur aus benötigen. Die Anforderungen und Rahmenbedingungen im Laufe eines Projektes ändern sich naturgemäß über den Projektlebenszyklus enorm.

In den frühen Phasen erfordern Datenprojekte einen explorativen Ansatz, der von schnellen Iterationen und häufigen Experimenten geprägt ist. Dabei entstehen für das Training von Machine Learning Modellen in der Regel Lastspitzen und/oder ein Bedarf nach spezialisierter Hardware wie GPUs (Graphics Processing Units). Der Produktivbetrieb stellt abhängig vom Anwendungsfall sehr diverse Anforderungen. Beide Phasen (Entwicklung und Betrieb) über eine homogene und unflexible Hardwarelandschaft, wie sie in vielen on-premises Infrastrukturen zu finden ist, abzudecken führt oft zu einer Diskrepanz zwischen Anforderungen und den eingesetzten Technologien.

Die Cloud für schwankende Anforderungen an Speicher- und Computing-Kapazitäten

Die Cloud dagegen bietet skalierbare flexible Speicher- und Computing-Lösungen, die sich nahtlos an diese schwankenden Anforderungen eines typischen Data-Science-Lebenszyklus anpassen lassen. Darüber hinaus bieten Cloud-Anbieter seit einiger Zeit zunehmend spezialisierte Infrastrukturen für Machine-Learning-Methoden wie Deep Learning an. In einigen Fällen lassen sich Anforderungen an die Hardware daher nur über die Cloud realisieren. Dadurch lässt sich die Entwicklungsgeschwindigkeit zum Teil erheblich steigern.

Warum Sie bei Ihren Projekten auf die Cloud setzen sollten erfahren Sie in unserem Beitrag zum Thema „4 Gründe, warum Unternehmen auf Cloud-Technologien setzen sollten

Eine weitere zentrale Herausforderung in der Bereitstellung von Data-Science-Projekten ist es, sicherzustellen, dass die Entwicklungsumgebung der Produktivumgebung möglichst genau entspricht. Cloud-Computing erleichtert dies durch die Nutzung moderner Paradigmen wie Infrastructure as Code. Zudem ermöglicht die flexible Bereitstellung von Infrastruktur on-demand, Hard- und Software feingranular auf die Anforderungen eines Projektes oder sogar einer einzelnen Aufgabe abzustimmen. Ein solches kosteneffizientes „Right-Sizing“ von Infrastruktur lässt sich außerhalb der Public Cloud nur schwer realisieren.

3) Betten Sie Ihr Data Product in eine übergreifende Datenstrategie ein

Zuletzt ist es hilfreich, für einen Moment alle technischen Feinheiten und Details des Bereitstellungsprozesses auszublenden. Das zentrale Anliegen einer datengetriebenen Organisation ist eine klare Vision und Strategie zur Wertschöpfung aus Daten. Der Fokus von Führungskräften muss daher auf der Beschaffung der richtigen Daten zur Erreichung ihrer strategischen Ziele liegen. Um langfristig von Data-Science-Projekten und Künstlicher Intelligenz zu profitieren, ist es wichtig, strategisch in die Datenerfassung zu investieren. Jedes Data Product muss darum aus der Perspektive der Data Strategy betrachtet und in diese eingebettet werden.

Zum Beispiel hat es sich ein führender Hersteller von Haushaltsgeräten zur Priorität gemacht, eine Echtzeit-Datenpipeline aufzubauen, um Daten zu sammeln, die von den mehr als 1,5 Millionen angeschlossenen Geräten weltweit produziert werden. Darüber hinaus investierte das Unternehmen lange in moderne Dateninfrastruktur, sowohl on-premises, als auch in der Cloud. Jetzt können diese Investitionen durch eine Vielzahl an fortgeschrittenen Anwendungsfällen genutzt werden.

Das Data Product im Gesamtkontext

Unserer Erfahrung nach scheitern viele Data-Science-Projekte, weil die vorhandene Datenbasis sie unmöglich macht. Hinzu kommt, dass durch die verstärkte Berichterstattung über das Potenzial von KI falsche Erwartungen geweckt werden. Natürlich sind wir fest davon überzeugt, dass kein Weg daran vorbeiführt, dass Unternehmen Werte aus ihren Daten generieren müssen. Aber dies gelingt nur, wenn die Digitalisierung von Unternehmen der Data-Science-Phase vorausgegangen ist.

Es ergibt wenig Sinn, von Anfang an fortgeschrittene Anwendungsfälle zu implementieren, wenn die Datenbasis dafür noch nicht vorhanden ist (frei nach dem Motto: „you have to learn how to make fire before you can shoot a rocket to the moon“). Gerade am Anfang ist es daher wichtig, sich auf einfache Use Cases zu konzentrieren, die schnell zu Ergebnissen führen und gleichzeitig an einer langfristigen Datenstrategie zu arbeiten.

Da datengetriebene Unternehmen sich auch als Organisation entwickeln müssen – sei es hinsichtlich der Unternehmenskultur oder hinsichtlich des Aufbaus von Data Skills und Know-how – ist es wichtig, immer auch die Motivation der Mitarbeiter im Blick zu behalten. Damit wird schrittweise die Grundlage für fortschrittliche KI-Anwendungen geschaffen.

Autor:innen

[at] REDAKTION

Unsere AT Redaktion besteht aus verschiedenen Mitarbeitern, die mit größter Sorgfalt und nach Bestem Wissen und Gewissen die entsprechenden Blogartikel ausarbeiten. Unsere Experten aus dem jeweiligen Fachgebiet versorgen Sie regelmäßig mit aktuellen Beiträgen aus dem Data Science und AI Bereich. Wir wünschen viel Freude beim Lesen.

0 Kommentare