Text Mining ist angesichts der Flut von Texten und Text-Daten, die täglich entstehen, ein wahrer Segen. Es würde jedes menschliche Vermögen übersteigen, Terabytes an Textdaten zu lesen, zu verschlagworten oder nach anderen Kriterien zu sortieren. In diesem Artikel beschäftigen wir uns mit den Grundlagen dieser Methode und zeigen Anwendungsmöglichkeiten von Text Mining auf.
Inhaltsverzeichnis
Anwendung von Text-Mining in der jüngsten Geschichte – Analyse der Panama-Papers
Ein Beispiel aus der jüngsten Geschichte verdeutlicht den Zweck von Text Mining: die Panama–Papers. Das größte Daten-Leak der Geschichte bestand aus 2,6 Terabyte beziehungsweise 11,5 Millionen Dateien. Welche Personen oder Organisationen sind involviert und in welchem Kontext werden sie genannt? Was für den Menschen ein extrem zeitintensives Unterfangen wäre, konnte mit der Hilfe von Graphdatenbanken zeiteffektiv gelöst werden und entsprechende Zusammenhänge des Daten-Leaks ließen sich finden und darstellen.
Dark Data – ungenutzte Daten bergen großes Potential für Unternehmen
Ungenutzte Daten, die in großen Mengen in Unternehmen gespeichert werden, werden auch als „Dark Data“ bezeichnet. Das Marktforschungsunternehmen Gartner schätzt, dass es 80 Prozent der Unternehmen bis 2021 nicht gelingen wird, Regelungen für einen sicheren und produktiven Umgang mit dieser wachsenden Menge an Daten zu etablieren. Text Data Mining ist einer der vielversprechenden Ansätze, um aus ungenutzten, unstrukturierten Daten aussagekräftige und bedeutsame Informationen herauszukristallisieren.
Definition: Was ist Text Mining?
Text Mining ist – ähnlich wie der Begriff Data Mining – ein Sammelbegriff. Dementsprechend sind unter ihm eine ganze Reihe von Algorithmus-basierten Analyse-Verfahren subsumiert. Text Data Mining lässt sich insofern als eine Sonderform des Data Mining verstehen, als es hier wie dort darum geht, aus einer bestimmten Form von Daten einen Mehrwert zu generieren.
Auch extrahierende Verfahren, bei denen spezifische Informationen aus einem großen Konvolut an Textdaten gesucht werden (Big Data), lässt sich als Sonderform von Text Mining verstehen. Darüber hinaus gibt es dabei Verfahrensweisen, die dem Vorgehen bei Big-Data-Analysen ähneln. Dabei wird in einer großen Menge an Textdaten nicht nach bestimmten Informationen gesucht, sondern nach strukturellen Ähnlichkeiten oder Mustern. So lassen sich Texte nach Kriterien wie etwa Ton, Thema, Funktion oder anderen Merkmalen und Auffälligkeiten sortieren. Die Ziele von Text Mining sind:
- Die Extraktion von implizitem Wissen aus großen Mengen von Textdaten
- Das Sichtbarmachen von Mustern und Beziehungen von Informationen, die in Texten repräsentiert sind
- Die Auswertung von Textdaten, die allein aufgrund des Umfangs nicht von Menschen gelesen werden können
Lese-Tipp: Was macht ein erfolgreiches Data-Science-Projekt aus? Wir setzen schon seit vielen Jahren auf den „Datenkompass“.
Welche Text-Mining-Methoden gibt es?
Prinzipiell lassen sich Text Mining Methoden in zwei Kategorien untergliedern: linguistische Methoden einerseits (Natural Language Processing) und statistische Methoden andererseits. Da die Grundlage von Text Data Mining Textdaten beziehungsweise Texte sind, dominieren bei den Analysemethoden auch linguistische Methoden. Daten, die anhand von Text-Mining-Methoden analysiert werden, fallen in die Datenkategorie der unstrukturierten bzw. semi-strukturierten Daten. Linguistische Sprachanalysen, beispielsweise zur Kategorisierung von Daten nach bestimmten semantischen Charakteristika, bieten einen wichtigen Ansatzpunkt, um diese (semi-)strukturierten Daten zu strukturieren (Clustering).
Anwendungsbeispiele für Text Mining
Text Mining ist überall dort in der Arbeitswelt zu finden, wo Texte als zentrale Arbeitsgrundlage dienen. In Bereichen wie beispielsweise der
- Steuerberatung,
- Wirtschaftsprüfung,
- Versicherungswirtschaft oder
- im juristischen Umfeld
spielen Texte in Form von Belegen, Lieferscheinen, Rechnungen, E-Mails, Verträgen oder Gesetzestexten eine zentrale Rolle. Text-Mining-Lösungen können dabei die Lösung für sehr spezifische Fragestellungen sein. Beispielsweise kann die maschinelle Überprüfung von Belegen auf Richtigkeit und Konsistenz bei der Prüfung oder im Rahmen von Inventuren Einsatz finden.
Text Mining kann aber auch der Bestandteil eines umfassenderen Lösungsansatzes sein. Beispielsweise können virtuelle Assistenten eine Reihe von Recherche-Aufgaben übernehmen – wie etwa der KI-Bot ROSS. Dieser ist unter anderem dazu in der Lage, Textarchive nach bestimmten Gesetzestexten oder Präzedenzfällen zu durchsuchen.
Beschreibung: Text Mining kann Teil einer Gesamtlösung sein – wie in diesem Fall eines intelligenten Assistenten namens „ROSS“.
Weitere Anwendungsmöglichkeiten entstehen auch im Zusammenhang mit der steigenden Anzahl vernetzter Produkte (Internet of Things). Diese bieten Automatisierungsoptionen an oder können Handlungsempfehlungen auf Displays ausgeben. Für einen unserer Kunden haben wir Kochrezepte analysiert, um wiederkehrende Arbeitsvorgänge zu identifizieren, die ein Küchengerät erkennen und automatisch ausführen kann. Dazu wurden die Rezept-Textdaten nach der Aufbereitung und der Definition der Suchkriterien mit Text Data Mining nach sich wiederholenden Mustern durchsucht. Bei komplexen Fragestellungen wie dieser können mehrere Text-Mining-Verfahren zum Einsatz kommen:
- Klassifikationsverfahren
- Segmentierungsverfahren
- Abhängikeitsanalysen
Sprache und Texte bilden die Grundlage unserer Kommunikation
Text Mining ist unter anderem deswegen ein so wichtiges Feld, weil Texte eine der wichtigsten Grundlage unserer Kommunikation und damit unserer Wirtschaftsweise überhaupt bilden. Darüber hinaus profitieren der Journalismus, wissenschaftliche Anwendungsbereiche wie die Meinungsforschung und Fragestellungen in den Sozial- und Wirtschaftswissenschaften enorm davon.
Texte und die in ihnen steckenden Informationen können dank Text Data Mining von in einem Umfang ausgewertet werden, der allein mit herkömmlichen Mitteln und Fähigkeiten niemals zu gewährleisten wäre. Die Stärken von Text Mining sind entsprechend überall dort besonders bemerkbar, wo die zu bewältigende Textmenge die Grenzen der menschlichen Leistungsfähigkeit übersteigt.
0 Kommentare