Data Mining – Methoden-Einmaleins und Beispiele aus der Praxis

Data Mining zählt zu den grundlegenden Methoden, wenn es um Datenexploration im Bereich Big Data geht. Theorie und Praxis von Data-Mining-Methoden.

Data Mining ist einer der Grundbegriffe im Kontext der Digitalisierung und Data Science. Er taucht insbesondere im Umfeld von Big-Data-Projekten und Data-Analytics-Methoden auf. Data Mining bezeichnet dabei ganz allgemein den systematischen, mathematisch-statistischen Umgang mit Daten. Das Ziel dabei ist stets, Muster, Beziehungen und Zusammenhänge in großen Datenmengen zu finden. Dieser Artikel gibt einen Überblick über die zugrundeliegende Theorie und veranschaulicht die Thematik anhand von 3 Praxis-Beispielen.

Data Mining ist aber kein universell einsetzbares Tool – vielmehr handelt es sich um eine Gruppe von Algorithmen, die in bestimmten Fällen sehr effektive Lösungswege versprechen.

Linktipp: Eine der kritischen Voraussetzungen, um Data-Mining-Methoden anzuwenden: die Datenqualität muss gewährleistet sein.

Was ist Data Mining?

Der Begriff Data Mining ist im Umfeld von Big Data anzusiedeln. Unter Data Mining lassen sich die explorativen Methoden subsummieren, bei denen – teilweise vollautomatisiert und teilweise nur halbautomatisiert – aus großen Datenmengen Erkenntnisse gewonnen werden. Das Ziel von Data Mining ist es, Abhängigkeiten, Gesetzmäßigkeiten und Muster in ansonsten unzusammenhängenden bzw. unstrukturierten Rohdaten zu fördern. Entsprechend daes englischen Begriffes „mining“, einer Metapher aus dem Bergbau, wird in diesem Zusammenhang manchmal auch von „schürfen“ gesprochen. Allerdings führt dieser Vergleich insofern in die Irre, als dass beim Data Mining kein Material abgebaut wird.

Beim #DataMining wird - im Vergleich zur echten Minenarbeit - nichts abgebaut. Vielmehr geht es um die Förderung von Erkenntnissen. Klick um zu Tweeten

Data-Mining-Methoden sind statistische Verfahren, die es erlauben, die Daten nach bestimmten Kriterien zu analysieren. Diese lassen sich grob in vier Kategorien unterteilen:

Je nach Use Case können bzw. müssen diese Methoden auch miteinander kombiniert werden. Unter Data Mining werden also eine ganze Reihe von Methoden subsummiert, die es erlauben, sinnvoll und gewinnbringend mit den Daten umzugehen. Große Mengen an Daten entstehen in der Industrie insbesondere im Rahmen von Monitoring oder im Rahmen der vernetzten Produktion.

Linktipp: Unstrukturierte Daten, die Grundlage für Data Mining, werden in der Regel in einem Data Lake gespeichert, mit dem wir uns in diesem Artikel näher beschäftigt haben.

Typische Aufgaben von Data Mining

Im Zuge dieser Datenauswertungen können neue Geschäftsfelder und -modelle entstehen oder erschlossen werden. Im Automotive-Bereich lassen sich beispielsweise Flottenanalysen durchführen, die es ermöglichen, Kunden ein völlig neues Service-Modell anzubieten (Aftersales). Deuten hier auffällige Muster in den Daten auf den möglichen Defekt eines Bauteils hin, so kann dieses ausgetauscht werden, noch bevor es einen Schaden auslöst (Predictive Mainentance). Weitere, charakteristische Aufgabenstellungen des Data-Mining sind:

  • Ausreißer-Erkennung: Identifizierung von ungewöhnlichen Datensätzen: Ausreißern, Fehlern, Änderungen
  • Clusteranalyse: Gruppierung von Objekten aufgrund von Ähnlichkeiten
  • Klassifikation: nicht zugeordnete Elemente werden bestehenden Klassen zugeordnet
  • Assoziationsanalyse: Identifizierung von Zusammenhängen und Abhängigkeiten in den Daten in Form von Regeln wie „Aus A und B folgt normalerweise C“
  • Regressionsanalyse: Identifizierung von Beziehungen zwischen (mehreren) abhängigen und unabhängigen Variablen
  • Zusammenfassung: Reduktion des Datensatzes in eine kompaktere Beschreibung ohne wesentlichen Informationsverlust

So sieht Data Mining in der Praxis aus

Wir haben Data Mining bereits bei zahlreichen Kundenprojekten eingesetzt. Beispielhaft sollen hier drei Use Cases vorgestellt werden, die typische Einsatzszenarien für Data Mining darstellen.

  1. Für einen unserer Kunden aus der Automobilindustrie ging es um die Reduzierung der Reparaturzeiten. Die Lösung sah vor, durch die Aufbereitung geeigneter Gewährleistungsdaten mithilfe einer Assoziationsanalyse auffällige Kombinationen von Arbeitsschritten zu identifizieren, die mit ungewollter, freier Arbeitszeit in Zusammenhang standen. Damit konnten wir ein Optimierungspotenzial im Werkstattprozess
  2. Bei einem anderen Use Case, der ebenfalls im Automotive-Sektor angesiedelt ist, ging es wiederum darum, für ein Softwarehause die Fehlererkennung bei Lackierrobotern zu verbessern. Das Ziel war es, ein Früherkennungssystem zu entwickeln, um aufwändige Nacharbeiten vollständig zu vermeiden. Anhand der Analyse der Logdaten entwickelten wir Fehlerbilder, die anschließend in einem Klassifikationsverfahren erkannt werden.
  3. Das dritte Beispiel kommt aus dem Bereich Banking. Eine deutsche Bank kam mit dem Wunsch auf uns zu, den Customer Lifetime Value ihrer Kunden besser berechnen zu wollen. Anstatt nur einen bestimmten Geldwert als Grundlage zu nehmen, sollten in Zukunft auch Aktivitäten der Kunden bewertet werden. Nachdem durch die Zusammenführung diverser Datenquellen eine geeignete Datengrundlage geschaffen wurde, konnten wir Kundentypen identifizieren und diese mithilfe des Clustering-Verfahrens in fünf Kategorien einteilen.

Diese drei Use Cases für Data-Mining-Methoden veranschaulichen vor allem Eines. Die konkrete Fragestellung steht im Zentrum von Data-Science-Projekten, bei denen Data Mining als Lösungsansatz eingesetzt wird. Wenn sowohl eine entsprechende Herausforderung als auch eine passende Datengrundlage (Big Data) vorliegt, kann Data Mining ein wirkungsvolles Instrument zur Förderung von gewinnbringenden Erkenntnissen sein.

Sie möchten wissen, wie Sie Data Mining zeilführend in Ihrem Unternehmen nutzen können? Wir helfen Ihnen gerne.

Ich möchte Kontakt aufnehmen

 

Tags

top