BERT

Was ist BERT?

BERT steht für „Bidirectional Encoder Representations from Transformers“ und beschreibt einen Algorithmus, welchen Google für Suchanfragen verwendet. Google entwickelt in ihren sogenannten Core-Updates den Algorithmus für Suchanfragen weiter, um immer bessere Suchergebnisse auf Suchanfragen der Nutzer zu erzielen.

BERT wurde Ende 2019 eingeführt und hat den Zweck, den Kontext der Suchanfrage besser zu verstehen. Dabei wurde ein besonderes Augenmerk auf Präpositionen und Füllwörter in der Suchanfrage gelegt, welche Google früher in Suchanfragen oftmals ignorierte. Neben dem Einsatz des Algorithmus wurden mit BERT auch sogenannte „Featured Snippets“ eingeführt. Dabei handelt es sich um hervorgehobene Suchergebnisse, welche dem Nutzer in Kurzform die Antwort auf die Suchanfrage liefern soll.

Da BERT auf die Sprach- und Texterkennung (Natural Language Understanding) sowie deren Verarbeitung abzielt, basiert der Algorithmus auf Natural Language Processing (NLP) im Gebiet der neuronalen Netze. NLP hat sich zum Ziel gesetzt, die natürliche menschliche Sprache für Computer verarbeitbar zu machen, sodass sie den Sinn der Sprache verstehen.

BERT nutzt ein Spezialgebiet im Bereich des maschinellen Lernens, das sogenannte Transfer Learning. Grundsätzlich fundieren Konzepte des maschinellen Lernens darauf, dass Trainings- und Testdaten aus demselben Merkmalsraum und derselben Verteilung stammen. Dies hat jedoch die Einschränkung, dass bei einer Änderung der Verteilung die ursprünglichen Trainingsdaten nicht weiter verwendet werden können. Beim Transfer Learning ist es jedoch möglich, dass Trainingsdaten aus einem „fachfremden“ Datensatz herangezogen und zur Lösungsfindung genutzt werden können. Dies reduziert die Anzahl der benötigten Trainingsdaten sowie gegebenenfalls auch die Trainingszeit. Während Transfer Learning ihren Ursprung in der Bilderkennung hat, nutzt BERT diese Methodik für die Textverarbeitung, da Suchanfragen sehr individuell gestellt werden und nicht immer spezifische Trainingsdaten vorhanden sind.

Wie ist das Sprachmodell aufgebaut und welche Funktionen umfasst es?

Das Sprachmodell BERT beruht auf Rechenmodellen, sogenannten Transformers, welche ein Wort jeweils in Beziehung zu allen anderen Wörtern eines Satzes stellt und so die Bedeutung besser zu verstehen versucht. Die Transformer funktionieren derart, indem Eingangssignale über sogenannte Encoder in eine verarbeitbare Form von Vektoren gebracht werden, mit welchen mathematische Operationen durchgeführt werden können. Im sogenannten „Self-Attention-Layer“ erfolgt die Gewichtung jedes Wortes der Eingabe anhand einer Werteskala. Diese Werteskala bewertet jedes Wort in Beziehung zu den anderen Worten der Eingabe. Die Werte werden anschließend normalisiert und mittels sogenannter Softmax-Funktion derart gewichtet, dass sich die Summe aller Werte auf 1 summiert. Anschließend werden diese an den nächsten Layer weitergeleitet.

Sowohl die Encoder als auch die Decoder sind als Feed-Forward-Neural-Network aufgebaut. Das bedeutet, dass es innerhalb der neuronalen Netze zu keiner Rückkoppelung zu vorherigen Schichten/Layern kommt, wie es bei rekurrenten Netzen der Fall ist. Im Decoder kommt es wieder zur Anwendung eines „Self-Attention-Layers“, zur Normalisierung der Werte sowie zur Zusammenführung mit den verarbeiteten Inputdaten im sogenannten „Encoder-Decoder-Attention-Layer“. Anschließend kommt es wiederum zur Implementierung eines neuronalen Feed-Forward-Netzes sowie zur Anwendung einer Linearisierung der Werte und der Softmax-Funktion, um schlussendlich die wahrscheinlichste Lösung auszugeben.

Auch BERT funktioniert wie die meisten Algorithmen auf Basis von Wahrscheinlichkeiten, auf welchen für die Lösungsfindung aufgesetzt wird.

Data Navigator Newsletter