Data Mining ist einer der Grundbegriffe im Kontext der Digitalisierung und Data Science. Er taucht insbesondere im Umfeld von Big-Data-Projekten und Data-Analytics-Methoden auf. Der Begriff bezeichnet dabei ganz allgemein den systematischen, mathematisch-statistischen Umgang mit Daten. Das Ziel dabei ist stets, Muster, Beziehungen und Zusammenhänge in großen Datenmengen zu finden. Dieser Artikel gibt einen Überblick über die zugrundeliegende Theorie und veranschaulicht die Thematik anhand von 3 Praxis-Beispielen.
Data Mining ist aber kein universell einsetzbares Tool – vielmehr handelt es sich um eine Gruppe von Algorithmen, die in bestimmten Fällen sehr effektive Lösungswege versprechen.
Inhaltsverzeichnis
Was ist Data Mining?
Der Begriff ist im Umfeld von Big Data anzusiedeln. Unter Data Mining lassen sich die explorativen Methoden subsumieren, bei denen – teilweise vollautomatisiert und teilweise nur halbautomatisiert – aus großen Datenmengen Erkenntnisse gewonnen werden. Das Ziel ist es, Abhängigkeiten, Gesetzmäßigkeiten und Muster in ansonsten unzusammenhängenden bzw. unstrukturierten Rohdaten zu fördern. Entsprechend dem englischen Begriff „mining“, einer Metapher aus dem Bergbau, wird in diesem Zusammenhang manchmal auch von „schürfen“ gesprochen. Data-Mining-Methoden sind statistische Verfahren, die es erlauben, die Daten nach bestimmten Kriterien zu analysieren. Diese lassen sich grob in vier Kategorien unterteilen:- Segmentierung bzw. Clustering
- Assoziation
- Klassifikation
- Vorhersage bzw. Prediction
Arten von Data Mining
Data Mining bezeichnet als Oberbegriff den systematischen Versuch, in Datenbeständen Zusammenhänge, Muster und Trends zu identifizieren. Beim Data Mining kommen eine Reihe computergestützter Methoden zum Einsatz, die mit statistischen Algorithmen arbeiten. Das Data Mining nimmt insbesondere aufgrund der immer größer werdenden Datenmengen (Big Data) an Bedeutung zu.Segmentierung
Die Segmentierung beziehungsweise das Clustering ist eine Methode, bei der Objekte ähnlicher gemeinsamer Merkmale zusammengefasst werden. Die Objekte innerhalb der daraus gebildeten Gruppe sind demnach homogen.Assoziation
Die Assoziation steht für die Entdeckung von Abhängigkeiten. Zur Assoziation gehören die Assoziationsanalyse und die Sequenzanalyse. Assoziationsanalysen unterstützen Anwender dabei, aus Datensätzen bestimmte Regeln abzuleiten, ohne das eine Zielvariable vorzugeben ist. Ein Anwendungsbereich sind Warenkorbanalysen. Mit Hilfe der Assoziation lässt sich aus dem Kauf eines Artikels A der Kauf eines Artikels B ableiten. Sequenzanalysen erweitern Assoziationsanalysen um bestimmte Regeln oder Statistiken.Klassifikation
In der Klassifikation werden einzelne Datenobjekte in bestimmte Klassen eingeordnet. Die Klasse ist vorab zu definieren und Objekte gelangen aufgrund ebenso vorab definierter Merkmale in diese Klasse. Grundlage sind Datensätze mit verschiedenen unabhängigen Merkmalen sowie eine abhängige Zielgröße.Prediction (Vorhersage)
Die Vorhersage ist im Data-Mining eine Prognose bisher unbekannter Merkmale auf Basis zuvor gewonnener Erkenntnisse. Grundlage ist ein Trainings-Datensatz. Damit lassen sich Modelle trainieren, die Vorhersagen über die Entwicklung bestimmter abhängiger Variablen treffen.Data-Mining-Spezialisierungen
Die Mehrheit aller Data-Mining-Ansätze lässt sich universell auf verschiedene Datentypen anwenden. Überdies existieren Spezialisierungen im Data-Mining, die bei spezifischen Daten zum Einsatz kommen.Textmining
Das Textmining ist ein speziell auf die Erschließung von Text-Datenbeständen angewandtes Data-Mining-Verfahren. Textdaten stellen eine besondere Herausforderung dar, da sie nicht trivial sind. Aufgrund ihres mehr- bis hochdimensionalen und unstrukturierten Charakters bedürfen Textdaten zunächst einer speziellen Aufbereitung zur weiteren Verarbeitung. In diesem Prozess sind die Textdaten um einige dimensionale Ausprägungen zu reduzieren und zu strukturieren. Durch komplexe statistische und datenlinguistische Verfahren lassen sich Informationen und Muster aus Textdokumenten erschließen. Auch natürlich-sprachliche Quellen sind Gegenstand des Textminings. Ein typischer Anwendungsfall sind computergestützte Methoden zur Erkennung textlicher Plagiate.Webmining
Das Webmining dient der Erschließung verschiedener Internetdaten. Gegenstand der Datenanalyse sind neben den eigentlichen Webseiten auch die Relationen zwischen den Seiten (beispielsweise in Form von Hyperlinks). Die Datenanalyse des Webminings identifiziert sowohl Cluster als auch Ausreißer unter den Webdaten. Web-Datensätze befinden sich in einer ständigen Dynamik, was eine besondere Herausforderung im Webmining darstellt.Zeitreihenanalyse
Die Zeitreihenanalyse ist eine der Data Mining Spzialisierungen, deren Ziel eine Prognose ist. Künftige Zeitreihen sind zu ermitteln, um auf diese Weise beispielsweise Vorhersagen über Zukunftstrends ableiten zu können.Typische Aufgaben
Im Zuge dieser Datenauswertungen können neue Geschäftsfelder und -modelle entstehen oder erschlossen werden. Im Automotive-Bereich lassen sich beispielsweise Flottenanalysen durchführen, die es ermöglichen, Kunden ein völlig neues Service-Modell anzubieten (Aftersales). Deuten hier auffällige Muster in den Daten auf den möglichen Defekt eines Bauteils hin, so kann dieses ausgetauscht werden, noch bevor es einen Schaden auslöst (Predictive Mainentance). Weitere, charakteristische Aufgabenstellungen des Data-Mining sind:- Ausreißer-Erkennung: Identifizierung von ungewöhnlichen Datensätzen: Ausreißern, Fehlern, Änderungen
- Clusteranalyse: Gruppierung von Objekten aufgrund von Ähnlichkeiten
- Klassifikation: nicht zugeordnete Elemente werden bestehenden Klassen zugeordnet
- Assoziationsanalyse: Identifizierung von Zusammenhängen und Abhängigkeiten in den Daten in Form von Regeln wie „Aus A und B folgt normalerweise C“
- Regressionsanalyse: Identifizierung von Beziehungen zwischen (mehreren) abhängigen und unabhängigen Variablen
- Zusammenfassung: Reduktion des Datensatzes in eine kompaktere Beschreibung ohne wesentlichen Informationsverlust
0 Kommentare