Unternehmen erzeugen und sammeln enorme Mengen an Daten. Jedes Unternehmen, das in einer sich stark wandelnden und beschleunigenden Ökonomie dauerhaft Erfolg haben will, muss diese Daten gewinnbringend einsetzen. Um digitale Transformation zu starten und Daten in wertvolles Wissen zu verwandeln, benötigen sie Data Science.
Bei Data Science handelt es sich um ein äußerst vielfältiges Gebiet, das Expertisen sowohl in den Bereichen IT, Statistik, Mathematik und Big Data aber auch Kenntnisse der betriebswirtschaftlichen und makroökonomischen Abläufe erfordert. Entsprechend vielfältig sind auch die Wege und Möglichkeiten, um Data Scientist zu werden – einem der gefragtesten Berufe des 21. Jahrhunderts.
Inhaltsverzeichnis
Was ist Data Science?
Data Science steht für die Datenwissenschaft, wobei es sich um eine interdisziplinäre Wissenschaft zur Gewinnung von Wissen aus Daten handelt. Hierbei werden große Mengen an Informationen aus Daten gewonnen, um auf dieser Grundlage eine Aussage zum optimalen Management im Unternehmen zu erhalten. So wird es möglich, die Qualität der eigenen Entscheidungen zu verbessern und die Effizienz in Hinblick auf die bereits aktiven Arbeitsabläufe zu steigern.
Der Ansatz der Datenwissenschaft stammt aus dem Jahr 1960. Damals wurde der Begriff „Data Science“ als Synonym für „Informatik“ genutzt. Erst 2001 wurde die Datenwissenschaft durch den US-amerikanischen Computerwissenschaftler William S. Cleveland zu einer eigenständigen Fachdisziplin, auf deren Grundlage neue Modelle und wissenschaftliche Methoden zur Analyse und Verwertung von Daten entwickelt wurden.
In der heutigen Phase hat sich die Datenwissenschaft zunehmend weiterentwickeln können. Sie beinhaltet Schwerpunkte der wissenschaftsbasierten Mathematik sowie der modernen Informatik. In Verbindung mit branchenspezifischem Fachwissen lässt sie sich auf jede Branche anwenden, um das Umsatzpotenzial zu steigern und für einen größeren Mehrwert im Management zu sorgen.
Data Science vs. IT
Dabei unterscheiden sich die Ziele von Data Science deutlich von den herkömmlichen IT-Aufgaben. Data-Science-Projekte stehen an der Schnittstelle zwischen unternehmerischen Daten unterschiedlichster Art und damit verknüpften Fragestellungen, die – konkrete und potenzielle – zukünftige Szenarien, Trends oder Ereignisse betreffen können.
Die zentralen Ziele von Data Science sind:
- Eine bessere Grundlage für Geschäftsentscheidungen zu schaffen
- Prozesse zu steuern, zu optimieren oder zu automatisieren
- Wettbewerbsvorteile zu erzielen
- Im Rahmen von Predictive Analytics belastbare Prognosen über zukünftige Ereignisse zu erstellen
Data Science lässt sich insofern als Synonym für eine neue Wahrnehmungsweise verstehen: Datenanalysen ermöglichen es, neue Einsichten in Bereichen zu gewinnen, die sich der Wahrnehmung bislang entzogen. Dadurch entstehen neue Perspektiven für Unternehmen, um sich im Wettbewerb einer digitalen und globalen Ökonomie zu behaupten.
Unterschied Big Data und Data Science
In den letzten Jahren ist die Aufmerksamkeit für das Thema Big Data und Data Science seitens der Forschung und der Industrie sehr stark angestiegen. Big Data ist in diesem Zusammenhang ein machtvolles Instrument, das entsprechend oft ein wichtiger Bestandteil von Data-Science-Lösungen ist.
Zunächst handelt es sich bei Big Data um einen Sammelbegriff, der ähnlich wie Data Sciences vielseitige Aspekte umfasst. Big Data kann folgende Teilbereiche umfassen:
- Das umfangreiche Erheben und Sammeln von Daten
- Der sicheren und massenhaften Speicherung beispielsweise in einem Data Lake
- Der gleichzeitigen, parallelen Verarbeitung großer Datenmengen
- Der Analyse von Daten mit speziellen Methoden
- Die sinnvolle Verknüpfung mit unternehmerischen Fragestellungen
Die Erkenntnisse, die aus Datenanalysen gezogen werden können, erlauben es, Geschäftsprozesse besser zu verstehen, sie zu optimieren, neue Geschäftsmodelle beziehungsweise eine umfassende Datenstrategie zu entwickeln. Auch aufgrund des Potenzials von Big Data, neue Geschäftszweige zu erschließen, wird Data Science insgesamt mehr und mehr zum unternehmerischen Erfolgsfaktor.
Das Hype-Thema Big Data steht heute vielfach im Zentrum der digitalen Transformation. Darüber hinaus ist es wichtig zu betonen, dass Big Data und Data Science mehr sind als reine IT-Themen.
Tätigkeitsbereiche im Data Science
Innerhalb der Datenwissenschaft gibt es zahlreiche Tätigkeitsbereiche. Hierzu gehören beispielsweise Informatiker, Programmierer, Fachpersonal im Bereich der Softwareentwicklung, Datenbankexperten und viele weitere Fachleute. Die Fachkenntnisse müssen in beinahe allen Bereichen Mathematik und die als Computer-Wissenschaft bezeichnete Informatik beinhalten. Auch Wissen zur spezifischen Branche der Anwendung ist je nach Anstellung elementar und für den Erfolg unverzichtbar.
Neben persönlichen Anforderungen wie aktiver Lösungskompetenz und Kreativität ist häufig ein abgeschlossenes Studium Voraussetzung für eine Tätigkeit als Data Scientist. In dieser Hinsicht gibt es an vielen Fachhochschulen und Universitäten eigenständige Data-Science-Studiengänge, die sich mit Bachelor oder Master in den Bereichen Science oder Engineering abschließen lassen. Das klassische Bachelor-Studium umfasst in der Regel sechs Semester, das anschließende Master-Studium weitere vier Semester. Nach einem erfolgreichen Abschluss des Studiums wird es möglich, als Data Scientist in zahlreichen Branchen zu arbeiten und sich das spezifische Know-how anzueignen. Allerdings kommt im Studium oft noch der Praxisbezug zu kurz. Daher bieten einige Unternehmen für Berufseinsteiger Traineeprogramme für Data Science und Trainee-Programme für Data Engineers an.
Fachliche und technologische Anforderungen
Data-Science-Projekte lassen sich entsprechend nicht als rein technologische Projekte begreifen, obwohl viele Aspekte davon datenbasiert sind. Technisches Know-how allein genügt nicht, um gewinnbringende Data-Science-Lösungen zu erarbeiten. Darin liegt einer der Hauptgründe, warum Data-Science-Experten so rar gesät sind. Ohne spezifische fachliche Kenntnisse zu betriebswirtschaftlichen Abläufen und der jeweiligen Branche, lassen sich schwer sinnvolle Fragestellungen entwickeln.
Der Name Big Data rührt von riesigen Datenmengen, die es im Rahmen von Data Science Projekten oft zu verarbeiten gilt. Bei unseren Lösungen fallen zum Teil täglich Millionen von Einzelmesswerten an, was vielen hundert Gigabyte von Daten entspricht.
Die technischen Voraussetzungen von Big Data sind bis heute groß, wenngleich die Kosten dafür seit vielen Jahren sinken. Um große Mengen von Daten zu speichern und zu verarbeiten, sind große Rechenzentren und zum Teil viele hunderte parallel arbeitende Prozessoren notwendig. Alternativ zur Speicherung und Verarbeitung on premise, bietet sich heute vielfach die Auslagerung der Daten in der Cloud an.
In welchen Branchen wird Data Science angewendet?
Der Einsatz von Data Science kommt besonders bei größeren Unternehmen zum Tragen. Aber auch immer mehr mittelständische Unternehmen nutzen Data Science Lösungen. Beispiele für die Anwendung von Data Science sind Retail- und Handelsunternehmen, Logistikunternehmen, Firmen in der Gesundheitsbranche, Banken, Versicherungen und Industriebetriebe.
Die charakteristischen Merkmale von Data Science
Im Lauf der letzten Jahre hat es sich eingebürgert, Big Data anhand einer variierenden Menge von V-Begriffen – wie Volume, Variety oder Velocity – zu definieren. Über die genau Anzahl der nötigen Begriffe dieser Art lässt sich lange streiten. Ein kleiner Hinweis für Insider: Es müssen am Ende selbstverständlich exakt 42 sein. Wir beschränken uns hier auf die fünf wesentlichen, charakteristischen Merkmale von Big Data:
1. Die Datenmenge
Wie es das Wort nahe legt, handelt es sich bei Big Data zunächst um eine „große“ Menge an Daten(„Volume“). Da Daten einen kleinen Ausschnitt aus der Realität repräsentieren gilt in der Regel: Je mehr Daten zur Verfügung stehen, desto vollständiger ist das Bild, das wir uns damit von der Wirklichkeit machen können.
2. Die Datenvarietät
Big Data besteht in den meisten Fällen aus unterschiedlichsten Datentypen und äußerst komplexen Datensätzen („Variety“) – dadurch werden Zusammenhänge und Muster erkennbar. Die Herausforderung besteht darum oft darin, die Daten miteinander in eine sinnvolle Beziehung zu bringen.
3. Die Verarbeitungsgeschwindigkeit
Neben der Datenmenge und der Datenvielfalt wird die schnelle Verfügbarkeit von Ergebnissen immer wichtiger. Mit einer entsprechenden Verarbeitungsgeschwindigkeit („Velocity“), die durch viele hundert parallel arbeitende Prozessoren gewährleistet wird, liegen Ergebnisse zum Teil in Echtzeit vor. Wären lediglich herkömmliche Computer am Werk, würde es Tage oder sogar Wochen dauern, bis Ergebnisse von Analysen vorliegen. Die Erkenntnisse wären dann zum großen Teil nutzlos.
4. Daten müssen veränderlich sein
Daten werden zum Teil extrem schnell erzeugt – die Turbine eines Windkraftwerks oder eines Flugzeugs, die von Sensoren überwacht wird, liefert pro Stunde bis zu 15 Terabyte an Roh- und Sensordaten. Die Relevanz der Informationen, die aus diesen Daten abgeleitet werden können, verfällt allerdings mit der Zeit („Variability“). Daten müssen darum veränderlich sein bzw. immer wieder neu erhoben werden, um weiterhin relevant zu sein.
5. Die Datenvisualisierung
Am Ende des Tages müssen Daten interpretiert und in sinnvolle Handlungskonzepte übersetzt werden. Eine ansprechende, übersichtliche und verständnisfördernde Datenvisualisierung ist dabei ein zentraler Erfolgsfaktor für Big-Data-Projekte.
Das letzte Beispiel zeigt auch, warum Big Data auf dem Zusammenspiel der verschiedenen Teilaspekte beruht. Bahnt sich beispielsweise eine Fehlfunktion an, auf die regelmäßig erhöhte Temperaturen eines Bauteils hinweisen, ist diese Information nur hilfreich, wenn die Datengrundlage einerseits möglichst genau ist, und andererseits mit anderen, älteren Datenbeständen verglichen werden kann. Dazu muss gleichzeitig ein Modell zur Erkennung und Bewertung der Daten vorliegen und Ergebnisse wiederum möglichst in Echtzeit.
Die Entscheidung, welche Handlung aus dem Ergebnis von Datenanalysen folgt, trifft nicht der Data Scientist. Darum müssen Daten entsprechend in einer für die Entscheider verständlichen Form dargestellt sein. Erst dann entsteht ein Zeit- und Wissensvorteil, aus dem sich ein Handlungsspielraum ergibt: Der Betreiber weiß frühzeitig von einem sich anbahnenden Schaden und kann noch vor dem tatsächlichen Ausfall Gegenmaßnahmen ergreifen.
Business Intelligence vs. Data Science
Mit der Analyse von Geschäftsdaten beschäftigte sich bislang die klassische Business Intelligence (BI). Diese konzentrierte sich auf die Auswertung von Unternehmensdaten mit dem Ziel, Abläufe besser zu verstehen und Prozesse zu optimieren. Mit Data Science wird dieses Konzept wesentlich modernisiert.
Bei (Advanced) Data Analytics und Predictive Analytics geht es nicht mehr nur darum, bestehende Daten und Prozesse zu analysieren, um die Vergangenheit besser zu verstehen, sondern darum, den Blick in die Zukunft zu richten. Ausgehend von Daten über Kunden, Portfolios, Vertriebs- und Marketingprozessen, Service, Risiken, Compliance, Preisentwicklung- und -bildung und aus der Finanzbuchhaltung lassen sich Aussagen ableiten, die in die Zukunft gerichtete Entscheidungen nachhaltig verbessern.
Die entscheidende Veränderung, die Data Science im Vergleich zur BI durch die Ausrichtung auf die Zukunft mit sich bringt, ist Dynamisierung. Anstatt reaktiv, aus dem Blick in die Vergangenheit Konsequenzen für die Gegenwart zu ziehen, kann der Blick direkt auf zukünftige Szenarien oder Ereignisse gerichtet werden.
Fazit
Data Science ermöglicht proaktives Handeln und wird gerade dadurch zum Treiber für Innovation. Der durch die Digitalisierung ausgelöste Wandel wird durch Data Science beherrschbar und bringt Unternehmen in die Position, die Zukunft aktiv zu gestalten.
0 Kommentare