Data Mining – Methoden und Beispiele aus der Praxis

von | 15. Juni 2020 | Grundlagen

Data Mining ist einer der Grundbegriffe im Kontext der Digitalisierung und Data Science. Er taucht insbesondere im Umfeld von Big-Data-Projekten und Data-Analytics-Methoden auf. Der Begriff bezeichnet dabei ganz allgemein den systematischen, mathematisch-statistischen Umgang mit Daten. Das Ziel dabei ist stets, Muster, Beziehungen und Zusammenhänge in großen Datenmengen zu finden. Dieser Artikel gibt einen Überblick über die zugrundeliegende Theorie und veranschaulicht die Thematik anhand von 3 Praxis-Beispielen. Data Mining ist aber kein universell einsetzbares Tool – vielmehr handelt es sich um eine Gruppe von Algorithmen, die in bestimmten Fällen sehr effektive Lösungswege versprechen.

Was ist Data Mining?

Der Begriff ist im Umfeld von Big Data anzusiedeln. Unter Data Mining lassen sich die explorativen Methoden subsumieren, bei denen – teilweise vollautomatisiert und teilweise nur halbautomatisiert – aus großen Datenmengen Erkenntnisse gewonnen werden. Das Ziel ist es, Abhängigkeiten, Gesetzmäßigkeiten und Muster in ansonsten unzusammenhängenden bzw. unstrukturierten Rohdaten zu fördern. Entsprechend dem englischen Begriff „mining“, einer Metapher aus dem Bergbau, wird in diesem Zusammenhang manchmal auch von „schürfen“ gesprochen. Data-Mining-Methoden sind statistische Verfahren, die es erlauben, die Daten nach bestimmten Kriterien zu analysieren. Diese lassen sich grob in vier Kategorien unterteilen:
  • Segmentierung bzw. Clustering
  • Assoziation
  • Klassifikation
  • Vorhersage bzw. Prediction
Je nach Use Case können bzw. müssen diese Methoden auch miteinander kombiniert werden. Unter Data Mining werden also eine ganze Reihe von Methoden subsumiert, die es erlauben, sinnvoll und gewinnbringend mit den Daten umzugehen. Große Mengen an Daten entstehen in der Industrie, insbesondere im Rahmen von Monitoring oder im Rahmen der vernetzten Produktion.

Arten von Data Mining

Data Mining bezeichnet als Oberbegriff den systematischen Versuch, in Datenbeständen Zusammenhänge, Muster und Trends zu identifizieren. Beim Data Mining kommen eine Reihe computergestützter Methoden zum Einsatz, die mit statistischen Algorithmen arbeiten. Das Data Mining nimmt insbesondere aufgrund der immer größer werdenden Datenmengen (Big Data) an Bedeutung zu.

Segmentierung

Die Segmentierung beziehungsweise das Clustering ist eine Methode, bei der Objekte ähnlicher gemeinsamer Merkmale zusammengefasst werden. Die Objekte innerhalb der daraus gebildeten Gruppe sind demnach homogen.

Assoziation

Die Assoziation steht für die Entdeckung von Abhängigkeiten. Zur Assoziation gehören die Assoziationsanalyse und die Sequenzanalyse. Assoziationsanalysen unterstützen Anwender dabei, aus Datensätzen bestimmte Regeln abzuleiten, ohne das eine Zielvariable vorzugeben ist. Ein Anwendungsbereich sind Warenkorbanalysen. Mit Hilfe der Assoziation lässt sich aus dem Kauf eines Artikels A der Kauf eines Artikels B ableiten. Sequenzanalysen erweitern Assoziationsanalysen um bestimmte Regeln oder Statistiken.

Klassifikation

In der Klassifikation werden einzelne Datenobjekte in bestimmte Klassen eingeordnet. Die Klasse ist vorab zu definieren und Objekte gelangen aufgrund ebenso vorab definierter Merkmale in diese Klasse. Grundlage sind Datensätze mit verschiedenen unabhängigen Merkmalen sowie eine abhängige Zielgröße.

Prediction (Vorhersage)

Die Vorhersage ist im Data-Mining eine Prognose bisher unbekannter Merkmale auf Basis zuvor gewonnener Erkenntnisse. Grundlage ist ein Trainings-Datensatz. Damit lassen sich Modelle trainieren, die Vorhersagen über die Entwicklung bestimmter abhängiger Variablen treffen.

Data-Mining-Spezialisierungen

Die Mehrheit aller Data-Mining-Ansätze lässt sich universell auf verschiedene Datentypen anwenden. Überdies existieren Spezialisierungen im Data-Mining, die bei spezifischen Daten zum Einsatz kommen.

Textmining

Das Textmining ist ein speziell auf die Erschließung von Text-Datenbeständen angewandtes Data-Mining-Verfahren. Textdaten stellen eine besondere Herausforderung dar, da sie nicht trivial sind. Aufgrund ihres mehr- bis hochdimensionalen und unstrukturierten Charakters bedürfen Textdaten zunächst einer speziellen Aufbereitung zur weiteren Verarbeitung. In diesem Prozess sind die Textdaten um einige dimensionale Ausprägungen zu reduzieren und zu strukturieren. Durch komplexe statistische und datenlinguistische Verfahren lassen sich Informationen und Muster aus Textdokumenten erschließen. Auch natürlich-sprachliche Quellen sind Gegenstand des Textminings. Ein typischer Anwendungsfall sind computergestützte Methoden zur Erkennung textlicher Plagiate.

Webmining

Das Webmining dient der Erschließung verschiedener Internetdaten. Gegenstand der Datenanalyse sind neben den eigentlichen Webseiten auch die Relationen zwischen den Seiten (beispielsweise in Form von Hyperlinks). Die Datenanalyse des Webminings identifiziert sowohl Cluster als auch Ausreißer unter den Webdaten. Web-Datensätze befinden sich in einer ständigen Dynamik, was eine besondere Herausforderung im Webmining darstellt.

Zeitreihenanalyse

Die Zeitreihenanalyse ist eine der Data Mining Spzialisierungen, deren Ziel eine Prognose ist. Künftige Zeitreihen sind zu ermitteln, um auf diese Weise beispielsweise Vorhersagen über Zukunftstrends ableiten zu können.

Typische Aufgaben

Im Zuge dieser Datenauswertungen können neue Geschäftsfelder und -modelle entstehen oder erschlossen werden. Im Automotive-Bereich lassen sich beispielsweise Flottenanalysen durchführen, die es ermöglichen, Kunden ein völlig neues Service-Modell anzubieten (Aftersales). Deuten hier auffällige Muster in den Daten auf den möglichen Defekt eines Bauteils hin, so kann dieses ausgetauscht werden, noch bevor es einen Schaden auslöst (Predictive Mainentance). Weitere, charakteristische Aufgabenstellungen des Data-Mining sind:
  • Ausreißer-Erkennung: Identifizierung von ungewöhnlichen Datensätzen: Ausreißern, Fehlern, Änderungen
  • Clusteranalyse: Gruppierung von Objekten aufgrund von Ähnlichkeiten
  • Klassifikation: nicht zugeordnete Elemente werden bestehenden Klassen zugeordnet
  • Assoziationsanalyse: Identifizierung von Zusammenhängen und Abhängigkeiten in den Daten in Form von Regeln wie „Aus A und B folgt normalerweise C“
  • Regressionsanalyse: Identifizierung von Beziehungen zwischen (mehreren) abhängigen und unabhängigen Variablen
  • Zusammenfassung: Reduktion des Datensatzes in eine kompaktere Beschreibung ohne wesentlichen Informationsverlust

So sieht es in der Praxis aus

Wir haben Data Mining bereits bei zahlreichen Kundenprojekten eingesetzt. Beispielhaft sollen hier drei Use Cases vorgestellt werden, die typische Einsatzszenarien für Data Mining darstellen. 1. Reduzierung der Reparaturzeiten Für einen unserer Kunden aus der Automobilindustrie ging es um die Reduzierung der Reparaturzeiten. Die Lösung sah vor, durch die Aufbereitung geeigneter Gewährleistungsdaten mithilfe einer Assoziationsanalyse auffällige Kombinationen von Arbeitsschritten zu identifizieren, die mit ungewollter, freier Arbeitszeit in Zusammenhang standen. Damit konnten wir ein Optimierungspotenzial im Werkstattprozess 2. Fehlererkennung bei Lackierrobotern Bei einem anderen Use Case, der ebenfalls im Automotive-Sektor angesiedelt ist, ging es wiederum darum, für ein Softwarehaus die Fehlererkennung bei Lackierrobotern zu verbessern. Das Ziel war es, ein Früherkennungssystem zu entwickeln, um aufwändige Nacharbeiten vollständig zu vermeiden. Anhand der Analyse der Logdaten entwickelten wir Fehlerbilder, die anschließend in einem Klassifikationsverfahren erkannt werden. 3. Customer Lifetime Value Das dritte Beispiel kommt aus dem Bereich Banking. Eine deutsche Bank kam mit dem Wunsch auf uns zu, den Customer Lifetime Value ihrer Kunden besser berechnen zu wollen. Anstatt nur einen bestimmten Geldwert als Grundlage zu nehmen, sollten in Zukunft auch Aktivitäten der Kunden bewertet werden. Nachdem durch die Zusammenführung diverser Datenquellen eine geeignete Datengrundlage geschaffen wurde, konnten wir Kundentypen identifizieren und diese mithilfe des Clustering-Verfahrens in fünf Kategorien einteilen. Diese drei Use Cases für Data-Mining-Methoden veranschaulichen vor allem Eines. Die konkrete Fragestellung steht im Zentrum von Data-Science-Projekten, bei denen Data Mining als Lösungsansatz eingesetzt wird. Wenn sowohl eine entsprechende Herausforderung als auch eine passende Datengrundlage (Big Data) vorliegt, kann Data Mining ein wirkungsvolles Instrument zur Förderung von gewinnbringenden Erkenntnissen sein.

Data Mining Probleme und Grenzen

Bei durchdachter Anwendung der vielfältigen Analyse- und Auswertungstechniken des Data-Minings bieten diese Methoden wertvolle Erkenntnisse und Konkurrenzvorteile. Alle diese Verfahren sind mit besonderen Herausforderungen verbunden. Eines der wichtigsten Data-Mining-Probleme besteht darin, dass jede Methodik zunächst manuell zu definieren ist. Die Festlegung der abhängigen und unabhängigen Variablen, Klassen sowie die zum Einsatz kommenden Analysetechniken obliegen dem Menschen. Damit sind die Resultate des Data-Minings grundsätzlich durch bestimmte Vorannahmen, Vorstellungen und Ziele verfälscht. Aus diesem Grunde beauftragen Unternehmen oft externe Data & AI Spezialisten wie die Alexander Thamm GmbH mit den Aufgaben des Data Minings.

Autor:innen

Michaela Tiedemann

Michaela Tiedemann ist seit den jungen Startup Tagen der Alexander Thamm GmbH mit im Team. Sie hat die Entwicklung vom schnelllebigen, spontanen Startup hin zum erfolgreichen Unternehmen aktiv mitgestaltet. Mit der Gründung einer eigenen Familie begann für Michaela Tiedemann dann parallel dazu ein ganz neues Kapitel. Den Job an den Nagel zu hängen, kam für die frisch gebackene Mutter aber nicht in Frage. Stattdessen entwickelte sie eine Strategie, wie sie ihre Stelle als Chief Marketing Officer mit ihrer Rolle als Mutter in Einklang bringen kann.

0 Kommentare

Einen Kommentar abschicken

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert