AT_Logo

Bag-of-Words-Modell

Was ist ein Bag-of-Words-Modell?

Ein Bag-of-Words-Modell ist eine vereinfachende Repräsentation, die in der Verarbeitung natürlicher Sprache und in der Informationsgewinnung verwendet wird. In diesem Modell wird ein Text als eine Tasche (bag) von seinen Worten repräsentiert, ohne die Grammatik und sogar ohne die Wortreihenfolge zu berücksichtigen, aber bei Beibehaltung der Vielzahl (multiplicity).

Eine Anwendung dieser Künstlichen Intelligenz ist die E-Mail-Filterung. Die Anzahl von gleichen Wörtern wird gespeichert. Es müssen die Wörter mit der höchsten Anzahl an Vorkommen, nicht die wichtigsten Wörter sein, denn häufig kommen „der“, „die“, „das“ und „ein“, „eine“ vor, ohne dass diese Wörter eine große Relevanz haben. Zum Zwecke einer Klassifizierung werden überwachte Alternativen entwickelt, um eine Klassenbezeichnung eines Dokumentes zu ergeben.

Es gibt ein Bigramm-Modell, in das der Text in Einheiten geparst wird. Es kann auch Hashing eingesetzt werden, um Speicher zu sparen. Weiter gibt es ein Bayes-Spam-Filter, bei dem die E-Mail-Nachricht in eine ungeordnete Sammlung von Wörtern aus zwei Wahrscheinlichkeitsverteilungen aufgeteilt wird. Die eine repräsentiert Spam und die andere legitimierte E-Mails, sogenannte „Ham“. So gibt es zwei Taschen voller Wörter. Die eine Tasche ist gefüllt mit Wörtern, die in Spam-Nachrichten enthalten sind und die andere mit Wörtern, die in legitimierten E-Mails vorhanden sind.

Was ist Bag-of-Words?

Bag-of-Words ist ein gewisser Weg, um Merkmale aus einem Text zu extrahieren, die dazu verwendet werden, diesen Text mit maschinellen Lernalgorithmen zu modellieren. Der Ansatz ist sehr einfach und flexibel. Er kann in vielfältigen Wegen genutzt werden, um Merkmale aus einem Dokument zu extrahieren.

Ein Bag-of-Words ist eine Repräsentation von Text, die die Häufigkeit von Wörtern innerhalb eines Dokuments beschreibt. Zum einen gibt es ein Vokabular von bekannten Wörtern, zum anderen gibt es eine Messung von vorhandenen bekannten Wörtern. Dieses Modell wird Tasche (bag) genannt, denn die Ordnung oder Struktur der Wörter wird weggelassen. Es wird lediglich betrachtet, ob ein Wort vorkommt, aber nicht wo es im Dokument steht.

Wie wird Text in Vektoren konvertiert?

Die Sprachmodellierung und Dokumentenklassifizierung kann ganz einfach mithilfe von Bag-of-Words Modellen geschehen. Maschinelles Lernen kann nicht direkt mit dem puren Text arbeiten, sondern es wird eine Konvertierung in Zahlen vorgenommen. Durch Zählen der Wortvorkommen und Hashing können die Sätze in Vektoren umgewandelt werden. Bag-of-Words ist eines der bekanntesten Verfahren, die zu einer Konstruktion von Feature-Räumen genutzt wird. Es werden im Zuge dieses Verfahrens Feature-Vektoren erzeugt.

Data Navigator Newsletter